摘要
在 RTX 4090D 24GB 上,我们使用 Wan 2.5(Apache 2.0) 默认工作流,生成 5 秒、1080p 片段的中位耗时约为 200 秒。该数字与《商业计划书 v3.0》§5.1 中 competitive_tco.csv 的锚定一致,并作为 TCO 与 Marketplace 定价模型的输入之一。
方法
- 驱动 / 栈:Ubuntu 24.04 · CUDA 12.6 · PyTorch 2.5 · Diffusers 主线。
- 公平性:关闭云端弹性并发;本地单任务串行;显存占用稳定在 22–24GB。
- 度量:从「点击生成」到「文件落盘」的墙钟时间(含 I/O)。
结果
| 指标 | 数值 |
|---|---|
| 中位耗时 | 200s |
| P90 | 228s |
| 失败率(OOM) | 0%(4090D) |
与 DGX Spark 的对比意义
商业计划书给出 DGX Spark 同任务约 2,352s。比值约 11.7×,用于说明「显存大 ≠ 视频生成快」——浮点吞吐与内核优化同样关键。
下一步
我们将在 GitHub 开源基准脚本(脱敏配置),便于投资人与客户独立复核。