V2M-Zero: 제로-페어 시간 정렬 비디오-투-뮤직 생성
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
March 11, 2026
저자: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan
cs.AI
초록
기존 텍스트-음악 생성 모델은 세밀한 시간적 제어가 부족하여 비디오 이벤트와 시간적으로 정렬된 음악을 생성하는 데 어려움을 겪습니다. 본 연구에서는 비디오에 시간적으로 정렬된 음악을 출력하는 제로-페어 비디오-음악 생성 접근법인 V2M-Zero를 소개합니다. 우리의 방법은 중요한 관찰에서 비롯되었습니다. 즉, 시간적 동기화는 '무엇이' 변화하는지가 아니라 '언제', '얼마나' 변화가 발생하는지를 맞추는 것을 요구한다는 점입니다. 음악적 사건과 시각적 사건은 의미론적으로 다르지만, 각 양식 내에서 독립적으로 포착될 수 있는 공유된 시간적 구조를 보여줍니다. 우리는 사전 학습된 음악 및 비디오 인코더를 사용하여 양식 내 유사성으로부터 계산된 이벤트 곡선을 통해 이 구조를 포착합니다. 각 양식 내의 시간적 변화를 독립적으로 측정함으로써, 이러한 곡선들은 양식 간에 비교 가능한 표현을 제공합니다. 이는 간단한 학습 전략을 가능하게 합니다. 즉, 텍스트-음악 모델을 음악 이벤트 곡선에 대해 미세 조정한 후, 교차 양식 학습이나 짝 지어진 데이터 없이 추론 시에 비디오 이벤트 곡선으로 대체하는 것입니다. OES-Pub, MovieGenBench-Music, AIST++ 데이터셋에서 V2M-Zero는 짝 지어진 데이터 기반 모델 대비 상당한 성능 향상을 보였습니다. 오디오 품질은 5-21% 더 높았고, 의미론적 정렬은 13-15% 더 우수했으며, 시간적 동기화는 21-52% 개선되었고, 댄스 비디오에서 비트 정렬은 28% 더 높았습니다. 대규모 크라우드소싱 주관적 청취 테스트를 통해서도 유사한 결과를 확인했습니다. 전반적으로, 우리의 결과는 짝 지어진 교차 양식 지도 학습보다 양식 내 특징을 통한 시간적 정렬이 비디오-음악 생성에 효과적임을 입증합니다. 결과는 https://genjib.github.io/v2m_zero/에서 확인할 수 있습니다.
English
Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/