V2M-Zero: Generatie van Video-naar-Muziek met Nul Paren Tijdelijk Uitgelijnd
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
March 11, 2026
Auteurs: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan
cs.AI
Samenvatting
Het genereren van muziek die temporeel is afgestemd op videogebeurtenissen vormt een uitdaging voor bestaande tekst-naar-muziekmodellen, die geen fijnmazige temporele controle bieden. Wij introduceren V2M-Zero, een zero-pair video-naar-muziek-generatiebenadering die tijdelijk uitgelijnde muziek voor video uitvoert. Onze methode is gemotiveerd door een belangrijke observatie: temporele synchronisatie vereist het afstemmen van wanneer en hoeveel verandering optreedt, niet wat er verandert. Hoewel muzikale en visuele gebeurtenissen semantisch verschillen, vertonen ze een gedeelde temporele structuur die onafhankelijk binnen elke modaliteit kan worden vastgelegd. Wij vangen deze structuur op via gebeurtenissencurves berekend uit intramodale gelijkenis met behulp van vooraf getrainde muziek- en video-encoders. Door temporele verandering binnen elke modaliteit onafhankelijk te meten, bieden deze curves vergelijkbare representaties tussen modaliteiten. Dit maakt een eenvoudige trainingsstrategie mogelijk: fine-tune een tekst-naar-muziekmodel op muziek-gebeurtenissencurves, vervang dan video-gebeurtenissencurves tijdens inferentie zonder cross-modale training of gepaarde data. Op OES-Pub, MovieGenBench-Music en AIST++ behaalt V2M-Zero aanzienlijke verbeteringen ten opzichte van baseline-methoden met gepaarde data: 5-21% hogere audiokwaliteit, 13-15% betere semantische afstemming, 21-52% verbeterde temporele synchronisatie en 28% hogere beatafstemming op dansvideo's. Wij vinden vergelijkbare resultaten via een grootschalige crowdsource subjectieve luistertest. Over het algemeen valideren onze resultaten dat temporele afstemming via intramodale kenmerken, in plaats van gepaarde cross-modale supervisie, effectief is voor video-naar-muziekgeneratie. Resultaten zijn beschikbaar op https://genjib.github.io/v2m_zero/.
English
Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/