YingVideo-MV: 음악 기반 다단계 비디오 생성
YingVideo-MV: Music-Driven Multi-Stage Video Generation
December 2, 2025
저자: Jiahui Chen, Weida Wang, Runhua Shi, Huan Yang, Chaofan Ding, Zihao Chen
cs.AI
초록
오디오 기반 아바타 비디오 생성 분야의 확산 모델이 긴 시퀀스에서 자연스러운 오디오-비디오 동기화 및 정체성 일관성을 달성하며 상당한 진전을 보였지만, 카메라 모션을 포함한 음악 공연 비디오 생성은 여전히 크게 탐구되지 않은 영역입니다. 본 논문에서는 음악 기반 장편 비디오 생성을 위한 최초의 캐스케이드 프레임워크인 YingVideo-MV를 제안합니다. 우리의 접근 방식은 오디오 의미 분석, 해석 가능한 샷 계획 모듈(MV-Director), 시간 인식 확산 트랜스포머 아키텍처, 그리고 장편 시퀀스 일관성 모델링을 통합하여 오디오 신호로부터 고품질 음악 공연 비디오의 자동 합성을 가능하게 합니다. 다양하고 고품질의 결과물 생성을 지원하기 위해 웹 데이터를 수집하여 대규모 Music-in-the-Wild 데이터셋을 구축하였습니다. 기존 장편 비디오 생성 방법들이 명시적인 카메라 모션 제어를 결여하고 있음을 확인하고, 카메라 포즈를 잠재 노이즈에 임베딩하는 카메라 어댑터 모듈을 도입했습니다. 또한 장편 시퀀스 추론 과정에서 클립 간 연속성을 강화하기 위해 오디오 임베딩을 기반으로 노이즈 제거 범위를 적응적으로 조절하는 시간 인식 동적 창 범위 전략을 제안합니다. 포괄적인 벤치마크 테스트를 통해 YingVideo-MV가 일관적이고 표현력豊かな 뮤직비디오 생성에서 탁월한 성능을 달성하며, 정밀한 음악-동작-카메라 동기화를 가능하게 함을 입증합니다. 더 많은 비디오는 프로젝트 페이지(https://giantailab.github.io/YingVideo-MV/)에서 확인할 수 있습니다.
English
While diffusion model for audio-driven avatar video generation have achieved notable process in synthesizing long sequences with natural audio-visual synchronization and identity consistency, the generation of music-performance videos with camera motions remains largely unexplored. We present YingVideo-MV, the first cascaded framework for music-driven long-video generation. Our approach integrates audio semantic analysis, an interpretable shot planning module (MV-Director), temporal-aware diffusion Transformer architectures, and long-sequence consistency modeling to enable automatic synthesis of high-quality music performance videos from audio signals. We construct a large-scale Music-in-the-Wild Dataset by collecting web data to support the achievement of diverse, high-quality results. Observing that existing long-video generation methods lack explicit camera motion control, we introduce a camera adapter module that embeds camera poses into latent noise. To enhance continulity between clips during long-sequence inference, we further propose a time-aware dynamic window range strategy that adaptively adjust denoising ranges based on audio embedding. Comprehensive benchmark tests demonstrate that YingVideo-MV achieves outstanding performance in generating coherent and expressive music videos, and enables precise music-motion-camera synchronization. More videos are available in our project page: https://giantailab.github.io/YingVideo-MV/ .