V2M-Zero: Generazione Video-to-Music con Zero-Pair e Allineamento Temporale

Abstract

La generazione di musica temporalmente allineata agli eventi video rappresenta una sfida per i modelli esistenti di testo-musica, che mancano di un controllo temporale granulare. Introduciamo V2M-Zero, un approccio zero-pair per la generazione video-musica che restituisce musica temporalmente allineata al video. Il nostro metodo è motivato da un'osservazione chiave: la sincronizzazione temporale richiede la corrispondenza di quando e quanto avviene un cambiamento, non di cosa cambi. Sebbene gli eventi musicali e visivi differiscano semanticamente, essi presentano una struttura temporale condivisa che può essere catturata indipendentemente all'interno di ciascuna modalità. Catturiamo questa struttura attraverso curve di evento calcolate dalla similarità intra-modale utilizzando encoder pre-addestrati per musica e video. Misurando il cambiamento temporale all'interno di ciascuna modalità in modo indipendente, queste curve forniscono rappresentazioni comparabili tra le modalità. Ciò consente una semplice strategia di addestramento: mettere a punto un modello testo-musica sulle curve di evento musicali, per poi sostituirle con curve di evento video durante l'inferenza, senza addestramento cross-modale o dati accoppiati. Su OES-Pub, MovieGenBench-Music e AIST++, V2M-Zero ottiene miglioramenti sostanziali rispetto ai baseline con dati accoppiati: qualità audio superiore del 5-21%, allineamento semantico migliore del 13-15%, sincronizzazione temporale migliorata del 21-52% e allineamento ritmico superiore del 28% sui video di danza. Risultati simili emergono da un ampio test di ascolto soggettivo crowdsourced. Nel complesso, i nostri risultati convalidano che l'allineamento temporale attraverso caratteristiche intra-modali, anziché una supervisione cross-modale con dati accoppiati, è efficace per la generazione video-musica. I risultati sono disponibili su https://genjib.github.io/v2m_zero/

English

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/

V2M-Zero: Generazione Video-to-Music con Zero-Pair e Allineamento Temporale

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Abstract

Support