ChatPaper.aiChatPaper

Seedance 1.0: Esplorare i Confini dei Modelli di Generazione Video

Seedance 1.0: Exploring the Boundaries of Video Generation Models

June 10, 2025
Autori: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI

Abstract

Notevoli progressi nella modellazione a diffusione hanno portato a rapidi miglioramenti nella generazione di video, tuttavia i modelli fondazionali attuali devono ancora affrontare sfide critiche nel bilanciare simultaneamente l'aderenza alle istruzioni, la plausibilità del movimento e la qualità visiva. In questo rapporto, presentiamo Seedance 1.0, un modello fondazionale per la generazione di video ad alte prestazioni ed efficiente nell'inferenza, che integra diversi miglioramenti tecnici chiave: (i) una cura dei dati multi-sorgente arricchita con didascalie video precise e significative, che consente un apprendimento completo in scenari diversificati; (ii) un design architetturale efficiente con un paradigma di addestramento proposto, che permette di supportare nativamente la generazione multi-shot e l'apprendimento congiunto sia di compiti text-to-video che image-to-video; (iii) approcci post-addestramento ottimizzati con cura, sfruttando il fine-tuning supervisionato granulare e il RLHF specifico per video con meccanismi di ricompensa multi-dimensionali per miglioramenti prestazionali completi; (iv) un'eccellente accelerazione del modello che raggiunge un aumento di velocità di inferenza di ~10x attraverso strategie di distillazione multi-stadio e ottimizzazioni a livello di sistema. Seedance 1.0 può generare un video di 5 secondi in risoluzione 1080p in soli 41,4 secondi (NVIDIA-L20). Rispetto ai modelli di generazione video all'avanguardia, Seedance 1.0 si distingue per una generazione video di alta qualità e veloce, con una fluidità spazio-temporale superiore e stabilità strutturale, un'aderenza precisa alle istruzioni in contesti complessi multi-soggetto, e una coerenza narrativa multi-shot nativa con una rappresentazione coerente del soggetto.
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements in video generation, yet current foundational model still face critical challenges in simultaneously balancing prompt following, motion plausibility, and visual quality. In this report, we introduce Seedance 1.0, a high-performance and inference-efficient video foundation generation model that integrates several core technical improvements: (i) multi-source data curation augmented with precision and meaningful video captioning, enabling comprehensive learning across diverse scenarios; (ii) an efficient architecture design with proposed training paradigm, which allows for natively supporting multi-shot generation and jointly learning of both text-to-video and image-to-video tasks. (iii) carefully-optimized post-training approaches leveraging fine-grained supervised fine-tuning, and video-specific RLHF with multi-dimensional reward mechanisms for comprehensive performance improvements; (iv) excellent model acceleration achieving ~10x inference speedup through multi-stage distillation strategies and system-level optimizations. Seedance 1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds (NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance 1.0 stands out with high-quality and fast video generation having superior spatiotemporal fluidity with structural stability, precise instruction adherence in complex multi-subject contexts, native multi-shot narrative coherence with consistent subject representation.
PDF642June 12, 2025