ChatPaper.aiChatPaper

Seedance 1.0: Исследование границ моделей генерации видео

Seedance 1.0: Exploring the Boundaries of Video Generation Models

June 10, 2025
Авторы: Yu Gao, Haoyuan Guo, Tuyen Hoang, Weilin Huang, Lu Jiang, Fangyuan Kong, Huixia Li, Jiashi Li, Liang Li, Xiaojie Li, Xunsong Li, Yifu Li, Shanchuan Lin, Zhijie Lin, Jiawei Liu, Shu Liu, Xiaonan Nie, Zhiwu Qing, Yuxi Ren, Li Sun, Zhi Tian, Rui Wang, Sen Wang, Guoqiang Wei, Guohong Wu, Jie Wu, Ruiqi Xia, Fei Xiao, Xuefeng Xiao, Jiangqiao Yan, Ceyuan Yang, Jianchao Yang, Runkai Yang, Tao Yang, Yihang Yang, Zilyu Ye, Xuejiao Zeng, Yan Zeng, Heng Zhang, Yang Zhao, Xiaozheng Zheng, Peihao Zhu, Jiaxin Zou, Feilong Zuo
cs.AI

Аннотация

Значительные прорывы в области диффузионного моделирования способствовали быстрому прогрессу в генерации видео, однако современные базовые модели по-прежнему сталкиваются с критическими вызовами в одновременном балансировании следования запросу, правдоподобности движения и визуального качества. В данном отчете мы представляем Seedance 1.0 — высокопроизводительную и эффективную в плане вывода базовую модель генерации видео, которая интегрирует несколько ключевых технических улучшений: (i) курация данных из множества источников, дополненная точным и содержательным описанием видео, что позволяет осуществлять всестороннее обучение в разнообразных сценариях; (ii) эффективный архитектурный дизайн с предложенной парадигмой обучения, который обеспечивает нативную поддержку многокадровой генерации и совместное обучение как текстово-видео, так и изображение-видео задач; (iii) тщательно оптимизированные подходы пост-обучения, включающие тонкую контролируемую донастройку и видео-специфичное RLHF с многомерными механизмами вознаграждения для комплексного улучшения производительности; (iv) превосходное ускорение модели, достигающее ~10-кратного увеличения скорости вывода благодаря многоэтапным стратегиям дистилляции и системным оптимизациям. Seedance 1.0 способна генерировать 5-секундное видео с разрешением 1080p всего за 41,4 секунды (NVIDIA-L20). По сравнению с передовыми моделями генерации видео, Seedance 1.0 выделяется высококачественной и быстрой генерацией видео, обладающей превосходной пространственно-временной плавностью при структурной стабильности, точным следованием инструкциям в сложных контекстах с множеством объектов, а также нативной согласованностью многокадрового повествования с последовательным представлением объектов.
English
Notable breakthroughs in diffusion modeling have propelled rapid improvements in video generation, yet current foundational model still face critical challenges in simultaneously balancing prompt following, motion plausibility, and visual quality. In this report, we introduce Seedance 1.0, a high-performance and inference-efficient video foundation generation model that integrates several core technical improvements: (i) multi-source data curation augmented with precision and meaningful video captioning, enabling comprehensive learning across diverse scenarios; (ii) an efficient architecture design with proposed training paradigm, which allows for natively supporting multi-shot generation and jointly learning of both text-to-video and image-to-video tasks. (iii) carefully-optimized post-training approaches leveraging fine-grained supervised fine-tuning, and video-specific RLHF with multi-dimensional reward mechanisms for comprehensive performance improvements; (iv) excellent model acceleration achieving ~10x inference speedup through multi-stage distillation strategies and system-level optimizations. Seedance 1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds (NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance 1.0 stands out with high-quality and fast video generation having superior spatiotemporal fluidity with structural stability, precise instruction adherence in complex multi-subject contexts, native multi-shot narrative coherence with consistent subject representation.
PDF612June 12, 2025