Seedance 1.0: ビデオ生成モデルの境界を探る
Seedance 1.0: Exploring the Boundaries of Video Generation Models
June 10, 2025
著者: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI
要旨
拡散モデリングにおける顕著なブレークスルーにより、ビデオ生成の急速な進化がもたらされたが、現在の基盤モデルは、プロンプトの忠実度、動作の妥当性、視覚的品質を同時にバランスさせるという重要な課題に直面している。本報告では、高性能かつ推論効率の高いビデオ基盤生成モデル「Seedance 1.0」を紹介する。このモデルは、以下の核心的な技術的改善を統合している:(i) 精度と意味のあるビデオキャプションを強化したマルチソースデータキュレーションにより、多様なシナリオにわたる包括的な学習を可能にする。(ii) 提案されたトレーニングパラダイムを備えた効率的なアーキテクチャ設計により、マルチショット生成のネイティブサポートと、テキストからビデオおよび画像からビデオのタスクの共同学習を実現する。(iii) 細粒度の教師ありファインチューニングと、多次元報酬メカニズムを活用したビデオ固有のRLHF(人間によるフィードバックを用いた強化学習)を活用した慎重に最適化されたポストトレーニングアプローチにより、包括的な性能向上を図る。(iv) 多段階蒸留戦略とシステムレベルの最適化を通じて、約10倍の推論速度向上を実現する優れたモデル加速。Seedance 1.0は、1080p解像度の5秒間のビデオをわずか41.4秒(NVIDIA-L20)で生成できる。最先端のビデオ生成モデルと比較して、Seedance 1.0は、優れた時空間的流動性と構造的安定性を備えた高品質かつ高速なビデオ生成、複雑なマルチサブジェクトコンテキストにおける正確な指示遵守、一貫したサブジェクト表現を伴うネイティブなマルチショットナラティブの一貫性において際立っている。
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements
in video generation, yet current foundational model still face critical
challenges in simultaneously balancing prompt following, motion plausibility,
and visual quality. In this report, we introduce Seedance 1.0, a
high-performance and inference-efficient video foundation generation model that
integrates several core technical improvements: (i) multi-source data curation
augmented with precision and meaningful video captioning, enabling
comprehensive learning across diverse scenarios; (ii) an efficient architecture
design with proposed training paradigm, which allows for natively supporting
multi-shot generation and jointly learning of both text-to-video and
image-to-video tasks. (iii) carefully-optimized post-training approaches
leveraging fine-grained supervised fine-tuning, and video-specific RLHF with
multi-dimensional reward mechanisms for comprehensive performance improvements;
(iv) excellent model acceleration achieving ~10x inference speedup through
multi-stage distillation strategies and system-level optimizations. Seedance
1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds
(NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance
1.0 stands out with high-quality and fast video generation having superior
spatiotemporal fluidity with structural stability, precise instruction
adherence in complex multi-subject contexts, native multi-shot narrative
coherence with consistent subject representation.