V2M-Zéro : Génération Vidéo-Musique Alignée dans le Temps Sans Paires
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
March 11, 2026
Auteurs: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan
cs.AI
Résumé
La génération de musique alignée temporellement avec les événements vidéo représente un défi pour les modèles texte-musique existants, qui manquent de contrôle temporel fin. Nous présentons V2M-Zero, une approche de génération vidéo-vers-musique sans paires d'apprentissage qui produit une musique temporellement alignée avec la vidéo. Notre méthode est motivée par une observation clé : la synchronisation temporelle nécessite de faire correspondre le moment et l'ampleur des changements, et non leur nature. Bien que les événements musicaux et visuels diffèrent sémantiquement, ils présentent une structure temporelle commune qui peut être capturée indépendamment au sein de chaque modalité. Nous capturons cette structure via des courbes d'événements calculées à partir de la similarité intra-modale en utilisant des encodeurs de musique et de vidéo pré-entraînés. En mesurant le changement temporel au sein de chaque modalité indépendamment, ces courbes fournissent des représentations comparables entre les modalités. Cela permet une stratégie d'entraînement simple : affiner un modèle texte-vers-musique sur des courbes d'événements musicaux, puis substituer des courbes d'événements vidéo lors de l'inférence, sans entraînement inter-modal ni données appariées. Sur OES-Pub, MovieGenBench-Music et AIST++, V2M-Zero obtient des gains substantiels par rapport aux bases de référence utilisant des données appariées : une qualité audio supérieure de 5 à 21 %, un alignement sémantique amélioré de 13 à 15 %, une synchronisation temporelle supérieure de 21 à 52 %, et un alignement rythmique 28 % plus élevé sur les vidéos de danse. Nous obtenons des résultats similaires via un vaste test d'écoute subjectif crowdsourcé. Globalement, nos résultats valident que l'alignement temporel via des caractéristiques intra-modales, plutôt qu'un apprentissage supervisé inter-modal apparié, est efficace pour la génération vidéo-vers-musique. Les résultats sont disponibles à l'adresse https://genjib.github.io/v2m_zero/
English
Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/