V2M-Zero: Generación de Video a Música con Alineación Temporal Cero-Pares

Resumen

La generación de música que se alinee temporalmente con los eventos de un video representa un desafío para los modelos existentes de texto a música, los cuales carecen de control temporal de grano fino. Presentamos V2M-Zero, un enfoque de generación de video a música de pares cero que produce música alineada temporalmente para video. Nuestro método se motiva por una observación clave: la sincronización temporal requiere emparejar cuándo y cuánto cambio ocurre, no qué cambia. Aunque los eventos musicales y visuales difieren semánticamente, exhiben una estructura temporal compartida que puede capturarse de forma independiente dentro de cada modalidad. Capturamos esta estructura a través de curvas de evento calculadas a partir de la similitud intramodal utilizando codificadores de música y video preentrenados. Al medir el cambio temporal dentro de cada modalidad de forma independiente, estas curvas proporcionan representaciones comparables entre modalidades. Esto permite una estrategia de entrenamiento simple: ajustar un modelo de texto a música en curvas de evento musical, y luego sustituir las curvas de evento de video durante la inferencia sin necesidad de entrenamiento multimodal cruzado o datos emparejados. En OES-Pub, MovieGenBench-Music y AIST++, V2M-Zero logra mejoras sustanciales respecto a los baselines con datos emparejados: una calidad de audio entre un 5% y un 21% superior, una alineación semántica entre un 13% y un 15% mejor, una sincronización temporal mejorada entre un 21% y un 52%, y una alineación de beats un 28% superior en videos de baile. Encontramos resultados similares mediante una prueba subjetiva de escucha a gran escala con participantes humanos. En general, nuestros resultados validan que la alineación temporal a través de características intramodales, en lugar de una supervisión multimodal cruzada con datos emparejados, es efectiva para la generación de video a música. Los resultados están disponibles en https://genjib.github.io/v2m_zero/

English

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/

V2M-Zero: Generación de Video a Música con Alineación Temporal Cero-Pares

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Resumen

Support