Seedance 1.0: Die Erkundung der Grenzen von Videogenerierungsmodellen
Seedance 1.0: Exploring the Boundaries of Video Generation Models
June 10, 2025
Autoren: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI
Zusammenfassung
Bemerkenswerte Durchbrüche in der Diffusionsmodellierung haben rasche Fortschritte in der Videogenerierung vorangetrieben, doch stehen aktuelle Basismodelle weiterhin vor kritischen Herausforderungen, wenn es darum geht, die Befolgung von Anweisungen, die Plausibilität von Bewegungen und die visuelle Qualität gleichzeitig zu gewährleisten. In diesem Bericht stellen wir Seedance 1.0 vor, ein leistungsstarkes und inferenzeffizientes Video-Basismodell zur Generierung, das mehrere zentrale technische Verbesserungen integriert: (i) die Kuratierung von Daten aus mehreren Quellen, ergänzt durch präzise und aussagekräftige Videobeschreibungen, die ein umfassendes Lernen über diverse Szenarien hinweg ermöglichen; (ii) ein effizientes Architekturdesign mit einem vorgeschlagenen Trainingsparadigma, das die native Unterstützung von Mehrfachgenerierung und das gemeinsame Lernen von Text-zu-Video- und Bild-zu-Video-Aufgaben ermöglicht; (iii) sorgfältig optimierte Nachtrainingsansätze, die fein abgestimmtes supervidiertes Fine-Tuning und video-spezifisches RLHF (Reinforcement Learning from Human Feedback) mit mehrdimensionalen Belohnungsmechanismen für umfassende Leistungsverbesserungen nutzen; (iv) eine hervorragende Modellbeschleunigung, die durch mehrstufige Destillationsstrategien und systemweite Optimierungen eine ~10-fache Beschleunigung der Inferenz erreicht. Seedance 1.0 kann ein 5-sekündiges Video in 1080p-Auflösung in nur 41,4 Sekunden generieren (NVIDIA-L20). Im Vergleich zu modernsten Videogenerierungsmodellen zeichnet sich Seedance 1.0 durch eine hochwertige und schnelle Videogenerierung aus, die eine überlegene raumzeitliche Flüssigkeit bei struktureller Stabilität, präzise Anweisungsbefolgung in komplexen Mehrfachsubjektkontexten sowie native narrative Kohärenz bei Mehrfachgenerierung mit konsistenter Subjektdarstellung aufweist.
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements
in video generation, yet current foundational model still face critical
challenges in simultaneously balancing prompt following, motion plausibility,
and visual quality. In this report, we introduce Seedance 1.0, a
high-performance and inference-efficient video foundation generation model that
integrates several core technical improvements: (i) multi-source data curation
augmented with precision and meaningful video captioning, enabling
comprehensive learning across diverse scenarios; (ii) an efficient architecture
design with proposed training paradigm, which allows for natively supporting
multi-shot generation and jointly learning of both text-to-video and
image-to-video tasks. (iii) carefully-optimized post-training approaches
leveraging fine-grained supervised fine-tuning, and video-specific RLHF with
multi-dimensional reward mechanisms for comprehensive performance improvements;
(iv) excellent model acceleration achieving ~10x inference speedup through
multi-stage distillation strategies and system-level optimizations. Seedance
1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds
(NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance
1.0 stands out with high-quality and fast video generation having superior
spatiotemporal fluidity with structural stability, precise instruction
adherence in complex multi-subject contexts, native multi-shot narrative
coherence with consistent subject representation.