YingVideo-MV: Многоэтапная генерация видео на основе музыки
YingVideo-MV: Music-Driven Multi-Stage Video Generation
December 2, 2025
Авторы: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen
cs.AI
Аннотация
Хотя диффузионные модели для генерации видеоаватаров на основе аудио достигли значительного прогресса в синтезе длинных последовательностей с естественной аудиовизуальной синхронизацией и идентичностью, генерация видеороликов музыкальных выступлений с движением камеры остается малоизученной. Мы представляем YingVideo-MV — первую каскадную архитектуру для генерации длинных видео на основе музыки. Наш подход интегрирует семантический анализ аудио, интерпретируемый модуль планирования кадров (MV-Director), темпорально-ориентированные диффузионные Transformer-архитектуры и моделирование согласованности длинных последовательностей для автоматического синтеза высококачественных видео музыкальных выступлений из аудиосигналов. Мы создали масштабный набор данных Music-in-the-Wild, собрав веб-данные для достижения разнообразных и качественных результатов. Отметив, что существующие методы генерации длинного видео не имеют явного управления движением камеры, мы вводим модуль адаптера камеры, встраивающий позы камеры в латентный шум. Для улучшения непрерывности между клипами при выводе длинных последовательностей мы дополнительно предлагаем стратегию динамического временного окна, которая адаптивно регулирует диапазоны дениоинга на основе аудио-эмбеддингов. Комплексные тесты показывают, что YingVideo-MV демонстрирует выдающуюся производительность в генерации связных и выразительных музыкальных видео с точной синхронизацией музыка-движение-камера. Дополнительные видео доступны на странице проекта: https://giantailab.github.io/YingVideo-MV/.
English
While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .