V2M-Zero: Geração de Vídeo-para-Música com Alinhamento Temporal sem Pares

Resumo

A geração de música que se alinha temporalmente com eventos de vídeo é um desafio para os modelos existentes de texto-para-música, que carecem de controle temporal refinado. Apresentamos o V2M-Zero, uma abordagem de geração vídeo-para-música sem pares (zero-pair) que produz música temporalmente alinhada para vídeo. Nosso método é motivado por uma observação fundamental: a sincronização temporal requer a correspondência de *quando* e *quanto* a mudança ocorre, não *o que* muda. Embora os eventos musicais e visuais sejam semanticamente diferentes, eles exibem uma estrutura temporal compartilhada que pode ser capturada independentemente dentro de cada modalidade. Capturamos essa estrutura por meio de *curvas de evento* computadas a partir da similaridade intramodal usando codificadores de música e vídeo pré-treinados. Ao medir a mudança temporal dentro de cada modalidade de forma independente, essas curvas fornecem representações comparáveis entre as modalidades. Isso permite uma estratégia de treinamento simples: ajustar um modelo de texto-para-música em curvas de evento de música e, em seguida, substituí-las por curvas de evento de vídeo durante a inferência, sem a necessidade de treinamento multimodal cruzado ou dados emparelhados. Nos conjuntos OES-Pub, MovieGenBench-Music e AIST++, o V2M-Zero alcança ganhos substanciais em relação às linhas de base que usam dados emparelhados: qualidade de áudio 5-21% superior, alinhamento semântico 13-15% melhor, sincronização temporal 21-52% aprimorada e alinhamento de batida 28% superior em vídeos de dança. Encontramos resultados semelhantes por meio de um grande teste subjetivo de escuta com crowd-sourcing. No geral, nossos resultados validam que o alinhamento temporal por meio de características intramodais, em vez de supervisão multimodal cruzada com pares, é eficaz para a geração de vídeo-para-música. Os resultados estão disponíveis em https://genjib.github.io/v2m_zero/.

English

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/

V2M-Zero: Geração de Vídeo-para-Música com Alinhamento Temporal sem Pares

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Resumo

Support