ChatPaper.aiChatPaper

Seedance 1.0 : Explorer les limites des modèles de génération vidéo

Seedance 1.0: Exploring the Boundaries of Video Generation Models

June 10, 2025
Auteurs: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI

Résumé

Les avancées notables dans la modélisation de la diffusion ont permis des améliorations rapides dans la génération de vidéos. Cependant, les modèles fondateurs actuels continuent de faire face à des défis critiques pour équilibrer simultanément la conformité aux instructions, la plausibilité du mouvement et la qualité visuelle. Dans ce rapport, nous présentons Seedance 1.0, un modèle fondateur de génération vidéo performant et efficace en inférence, qui intègre plusieurs améliorations techniques clés : (i) une curation de données multi-sources enrichie par un sous-titrage vidéo précis et significatif, permettant un apprentissage complet dans divers scénarios ; (ii) une conception architecturale efficace avec un paradigme d'entraînement proposé, qui permet de prendre en charge nativement la génération multi-prises et l'apprentissage conjoint des tâches de texte-à-vidéo et d'image-à-vidéo ; (iii) des approches post-entraînement soigneusement optimisées exploitant un réglage fin supervisé granulaire et un RLHF spécifique à la vidéo avec des mécanismes de récompense multidimensionnels pour des améliorations globales des performances ; (iv) une accélération exceptionnelle du modèle atteignant une accélération d'inférence d'environ 10x grâce à des stratégies de distillation multi-étapes et des optimisations au niveau système. Seedance 1.0 peut générer une vidéo de 5 secondes en résolution 1080p en seulement 41,4 secondes (NVIDIA-L20). Par rapport aux modèles de génération vidéo de pointe, Seedance 1.0 se distingue par une génération vidéo de haute qualité et rapide, offrant une fluidité spatio-temporelle supérieure avec une stabilité structurelle, une adhérence précise aux instructions dans des contextes complexes à plusieurs sujets, et une cohérence narrative multi-prises native avec une représentation cohérente des sujets.
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements in video generation, yet current foundational model still face critical challenges in simultaneously balancing prompt following, motion plausibility, and visual quality. In this report, we introduce Seedance 1.0, a high-performance and inference-efficient video foundation generation model that integrates several core technical improvements: (i) multi-source data curation augmented with precision and meaningful video captioning, enabling comprehensive learning across diverse scenarios; (ii) an efficient architecture design with proposed training paradigm, which allows for natively supporting multi-shot generation and jointly learning of both text-to-video and image-to-video tasks. (iii) carefully-optimized post-training approaches leveraging fine-grained supervised fine-tuning, and video-specific RLHF with multi-dimensional reward mechanisms for comprehensive performance improvements; (iv) excellent model acceleration achieving ~10x inference speedup through multi-stage distillation strategies and system-level optimizations. Seedance 1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds (NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance 1.0 stands out with high-quality and fast video generation having superior spatiotemporal fluidity with structural stability, precise instruction adherence in complex multi-subject contexts, native multi-shot narrative coherence with consistent subject representation.
PDF612June 12, 2025