ChatPaper.aiChatPaper

Seedance 1.0: Explorando los límites de los modelos de generación de video.

Seedance 1.0: Exploring the Boundaries of Video Generation Models

June 10, 2025
Autores: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI

Resumen

Los avances notables en el modelado de difusión han impulsado mejoras rápidas en la generación de videos, aunque los modelos fundamentales actuales aún enfrentan desafíos críticos para equilibrar simultáneamente el seguimiento de instrucciones, la plausibilidad del movimiento y la calidad visual. En este informe, presentamos Seedance 1.0, un modelo de generación de videos de alto rendimiento y eficiencia en la inferencia que integra varias mejoras técnicas clave: (i) curación de datos de múltiples fuentes complementada con subtitulación precisa y significativa de videos, lo que permite un aprendizaje integral en diversos escenarios; (ii) un diseño de arquitectura eficiente con un paradigma de entrenamiento propuesto, que permite soportar nativamente la generación de múltiples tomas y el aprendizaje conjunto de tareas de texto a video e imagen a video; (iii) enfoques de posentrenamiento cuidadosamente optimizados que aprovechan el ajuste fino supervisado de grano fino y el RLHF específico para video con mecanismos de recompensa multidimensional para mejoras integrales en el rendimiento; (iv) una excelente aceleración del modelo que logra un aumento de velocidad en la inferencia de ~10x mediante estrategias de destilación en múltiples etapas y optimizaciones a nivel de sistema. Seedance 1.0 puede generar un video de 5 segundos en resolución 1080p en solo 41.4 segundos (NVIDIA-L20). En comparación con los modelos de generación de videos más avanzados, Seedance 1.0 destaca por su generación de videos de alta calidad y rápida, con una fluidez espacio-temporal superior y estabilidad estructural, adherencia precisa a instrucciones en contextos complejos con múltiples sujetos, y coherencia narrativa nativa en múltiples tomas con representación consistente del sujeto.
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements in video generation, yet current foundational model still face critical challenges in simultaneously balancing prompt following, motion plausibility, and visual quality. In this report, we introduce Seedance 1.0, a high-performance and inference-efficient video foundation generation model that integrates several core technical improvements: (i) multi-source data curation augmented with precision and meaningful video captioning, enabling comprehensive learning across diverse scenarios; (ii) an efficient architecture design with proposed training paradigm, which allows for natively supporting multi-shot generation and jointly learning of both text-to-video and image-to-video tasks. (iii) carefully-optimized post-training approaches leveraging fine-grained supervised fine-tuning, and video-specific RLHF with multi-dimensional reward mechanisms for comprehensive performance improvements; (iv) excellent model acceleration achieving ~10x inference speedup through multi-stage distillation strategies and system-level optimizations. Seedance 1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds (NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance 1.0 stands out with high-quality and fast video generation having superior spatiotemporal fluidity with structural stability, precise instruction adherence in complex multi-subject contexts, native multi-shot narrative coherence with consistent subject representation.
PDF612June 12, 2025