ChatPaper.aiChatPaper

YingVideo-MV : Génération de vidéos multi-étapes pilotée par la musique

YingVideo-MV: Music-Driven Multi-Stage Video Generation

December 2, 2025
papers.authors: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen
cs.AI

papers.abstract

Bien que les modèles de diffusion pour la génération de vidéos d'avatars pilotées par l'audio aient réalisé des progrès notables dans la synthèse de longues séquences avec une synchronisation audio-visuelle naturelle et une cohérence d'identité, la génération de vidéos de performances musicales avec mouvements de caméra reste largement inexplorée. Nous présentons YingVideo-MV, le premier framework en cascade pour la génération de longues vidéos musicales. Notre approche intègre une analyse sémantique de l'audio, un module de planification de plans interprétable (MV-Director), des architectures Transformer à diffusion sensibles à la temporalité et une modélisation de la cohérence des longues séquences pour permettre la synthèse automatique de vidéos de performances musicales de haute qualité à partir de signaux audio. Nous avons constitué un jeu de données à grande échelle "Music-in-the-Wild" en collectant des données web pour soutenir l'obtention de résultats diversifiés et de haute qualité. Constatant que les méthodes existantes de génération de longues vidéos manquent de contrôle explicite des mouvements de caméra, nous introduisons un module adaptateur de caméra qui intègre les poses de caméra dans le bruit latent. Pour améliorer la continuité entre les clips lors de l'inférence de longues séquences, nous proposons en outre une stratégie de plage dynamique temporelle qui ajuste adaptativement les plages de débruitage basées sur l'embedding audio. Des tests de référence complets démontrent que YingVideo-MV obtient des performances exceptionnelles dans la génération de vidéos musicales cohérentes et expressives, et permet une synchronisation précise musique-mouvement-caméra. Plus de vidéos sont disponibles sur notre page de projet : https://giantailab.github.io/YingVideo-MV/.
English
While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .
PDF31December 4, 2025