YingVideo-MV: Musikgesteuerte mehrstufige Videogenerierung
YingVideo-MV: Music-Driven Multi-Stage Video Generation
December 2, 2025
papers.authors: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen
cs.AI
papers.abstract
Während Diffusionsmodelle für die audiogesteuerte Avatarvideogenerierung bemerkenswerte Fortschritte bei der Synthese langer Sequenzen mit natürlicher audiovisueller Synchronisation und Identitätskonsistenz erzielt haben, ist die Generierung von Musikaufführungsvideos mit Kamerabewegungen weitgehend unerforscht. Wir stellen YingVideo-MV vor, das erste kaskadierte Framework zur musikgesteuerten Langvideogenerierung. Unser Ansatz integriert audiosemantische Analyse, ein interpretierbares Szenenplanungsmodul (MV-Director), zeitlich sensitive Diffusions-Transformer-Architekturen und Konsistenzmodellierung für lange Sequenzen, um die automatische Synthese hochwertiger Musikaufführungsvideos aus Audiosignalen zu ermöglichen. Wir haben einen großen, vielfältigen Music-in-the-Wild-Datensatz durch die Sammlung von Webdaten aufgebaut, um die Erzielung diverser, hochwertiger Ergebnisse zu unterstützen. Da bestehende Methoden zur Langvideogenerierung keine explizite Steuerung der Kamerabewegung bieten, führen wir ein Kameradaptermodul ein, das Kameraposen in latente Rauschsignale einbettet. Um die Kontinuität zwischen Clips während der Langsequenzinferenz zu verbessern, schlagen wir weiterhin eine zeitabhängige dynamische Fensterbereichsstrategie vor, die die Entrauschungsbereiche basierend auf Audio-Einbettungen adaptiv anpasst. Umfassende Benchmark-Tests zeigen, dass YingVideo-MV herausragende Leistungen bei der Generierung kohärenter und ausdrucksstarker Musikvideos erzielt und eine präzise Musik-Bewegung-Kamera-Synchronisation ermöglicht. Weitere Videos sind auf unserer Projektseite verfügbar: https://giantailab.github.io/YingVideo-MV/.
English
While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .