ChatPaper.aiChatPaper

YingVideo-MV: Generación de Vídeo Multietapa Dirigida por Música

YingVideo-MV: Music-Driven Multi-Stage Video Generation

December 2, 2025
Autores: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen
cs.AI

Resumen

Si bien los modelos de difusión para la generación de vídeos de avatares impulsados por audio han logrado avances notables en la síntesis de secuencias largas con sincronización audiovisual natural y consistencia de identidad, la generación de vídeos de interpretaciones musicales con movimientos de cámara sigue siendo un terreno prácticamente inexplorado. Presentamos YingVideo-MV, el primer marco de trabajo en cascada para la generación de vídeos largos impulsados por música. Nuestro enfoque integra el análisis semántico del audio, un módulo interpretable de planificación de tomas (MV-Director), arquitecturas de Transformers de difusión con conciencia temporal y un modelo de consistencia para secuencias largas, lo que permite la síntesis automática de vídeos de interpretación musical de alta calidad a partir de señales de audio. Construimos un conjunto de datos a gran escala, Music-in-the-Wild Dataset, recopilando datos web para respaldar la obtención de resultados diversos y de alta calidad. Al observar que los métodos existentes de generación de vídeos largos carecen de un control explícito del movimiento de cámara, introducimos un módulo adaptador de cámara que incrusta las poses de la cámara en el ruido latente. Para mejorar la continuidad entre clips durante la inferencia de secuencias largas, proponemos además una estrategia de rango dinámico de ventana consciente del tiempo que ajusta adaptativamente los rangos de eliminación de ruido basándose en la incrustación de audio. Pruebas exhaustivas de evaluación demuestran que YingVideo-MV logra un rendimiento sobresaliente en la generación de vídeos musicales coherentes y expresivos, y permite una sincronización precisa entre música, movimiento y cámara. Se pueden encontrar más vídeos en nuestra página del proyecto: https://giantailab.github.io/YingVideo-MV/.
English
While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .
PDF31December 4, 2025