YingVideo-MV: Geração de Vídeo Multiestágio Orientada por Música

Resumo

Embora os modelos de difusão para geração de vídeos de avatar dirigidos por áudio tenham alcançado progressos notáveis na síntese de sequências longas com sincronização áudio-visual natural e consistência de identidade, a geração de vídeos de performance musical com movimentos de câmera permanece amplamente inexplorada. Apresentamos o YingVideo-MV, o primeiro framework em cascata para geração de vídeos longos dirigidos por música. Nossa abordagem integra análise semântica de áudio, um módulo interpretativo de planejamento de cena (MV-Director), arquiteturas temporais de Transformers de difusão e modelagem de consistência de sequências longas para permitir a síntese automática de vídeos de performance musical de alta qualidade a partir de sinais de áudio. Construímos um conjunto de dados em larga escala "Music-in-the-Wild" coletando dados da web para viabilizar resultados diversos e de alta qualidade. Observando que os métodos existentes de geração de vídeos longos carecem de controle explícito de movimento de câmera, introduzimos um módulo adaptador de câmera que incorpora poses de câmera no ruído latente. Para melhorar a continuidade entre os clipes durante a inferência de sequências longas, propomos ainda uma estratégia de intervalo dinâmico de janela temporal que ajusta adaptativamente os intervalos de remoção de ruído com base na incorporação de áudio. Testes abrangentes de benchmark demonstram que o YingVideo-MV alcança desempenho excepcional na geração de vídeos musicais coerentes e expressivos, e permite uma sincronização precisa entre música, movimento e câmera. Mais vídeos estão disponíveis em nossa página do projeto: https://giantailab.github.io/YingVideo-MV/.

English

While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .

YingVideo-MV: Geração de Vídeo Multiestágio Orientada por Música

YingVideo-MV: Music-Driven Multi-Stage Video Generation

Resumo

Support