V2M-Zero: Zeitlich abgestimmte Video-zu-Musik-Generierung ohne Paardaten
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
March 11, 2026
Autoren: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan
cs.AI
Zusammenfassung
Die Erzeugung von Musik, die zeitlich mit Videoevents übereinstimmt, stellt für bestehende Text-zu-Musik-Modelle eine Herausforderung dar, da ihnen eine feingranulare zeitliche Steuerung fehlt. Wir stellen V2M-Zero vor, einen Zero-Pair-Video-zu-Musik-Generierungsansatz, der zeitlich abgestimmte Musik für Videos ausgibt. Unsere Methode wird durch eine zentrale Beobachtung motiviert: Temporale Synchronisation erfordert die Übereinstimmung von *wann* und *wie stark* sich etwas ändert, nicht *was* sich ändert. Während sich musikalische und visuelle Ereignisse semantisch unterscheiden, weisen sie eine gemeinsame zeitliche Struktur auf, die unabhängig innerhalb jeder Modalität erfasst werden kann. Wir erfassen diese Struktur durch Ereigniskurven, die aus intra-modaler Ähnlichkeit mittels vortrainierter Musik- und Video-Encoder berechnet werden. Indem sie zeitliche Veränderungen innerhalb jeder Modalität unabhängig messen, bieten diese Kurven vergleichbare Repräsentationen über Modalitäten hinweg. Dies ermöglicht eine einfache Trainingsstrategie: Feinabstimmung eines Text-zu-Musik-Modells auf Musik-Ereigniskurven, gefolgt vom Ersetzen durch Video-Ereigniskurven während der Inferenz – ohne Cross-Modal-Training oder gepaarte Daten. Auf OES-Pub, MovieGenBench-Music und AIST++ erzielt V2M-Zero erhebliche Verbesserungen gegenüber Baseline-Modellen mit gepaarten Daten: 5–21 % höhere Audioqualität, 13–15 % bessere semantische Übereinstimmung, 21–52 % verbesserte temporale Synchronisation und 28 % höhere Beat-Abstimmung bei Tanzvideos. Wir finden ähnliche Ergebnisse in einem groß angelegten subjektiven Hörtest mit Crowd-Sourcing. Insgesamt bestätigen unsere Ergebnisse, dass zeitliche Abstimmung durch Modalitäts-interne Merkmale anstelle von gepaarter cross-modaler Supervision effektiv für die Video-zu-Musik-Generierung ist. Ergebnisse sind verfügbar unter https://genjib.github.io/v2m_zero/.
English
Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/