V2M-Zero: Генерация музыки из видео с нулевым количеством пар и временным выравниванием

Аннотация

Создание музыки, временно согласованной с событиями на видео, представляет сложность для существующих текстово-музыкальных моделей, которые не обладают детальным временным контролем. Мы представляем V2M-Zero — беспарный подход генерации музыки по видео, который выдает временно согласованную музыку для видеоряда. Наш метод основан на ключевом наблюдении: временная синхронизация требует соответствия того, когда и насколько сильно происходят изменения, а не того, какие именно изменения происходят. Хотя музыкальные и визуальные события различаются семантически, они демонстрируют общую временную структуру, которую можно независимо выделить внутри каждой модальности. Мы фиксируем эту структуру с помощью кривых событий, вычисляемых на основе внутримодального сходства с использованием предобученных музыкальных и видеоэнкодеров. Измеряя временные изменения внутри каждой модальности независимо, эти кривые обеспечивают сопоставимые представления across модальностями. Это позволяет использовать простую стратегию обучения: дообучить текстово-музыкальную модель на кривых музыкальных событий, а затем подставлять кривые видео-событий на этапе inference без кросс-модального обучения или парных данных. На наборах данных OES-Pub, MovieGenBench-Music и AIST++ V2M-Zero демонстрирует значительное превосходство над baseline-методами, использующими парные данные: на 5–21% выше качество аудио, на 13–15% лучше семантическое соответствие, на 21–52% улучшена временная синхронизация и на 28% выше ритмическое соответствие в танцевальных видео. Схожие результаты получены в крупном краудсорсинговом субъективном тестировании. В целом наши результаты подтверждают, что временное согласование через внутримодальные признаки, а не через парную кросс-модальную разметку, является эффективным для задачи генерации музыки по видео. Результаты доступны по адресу https://genjib.github.io/v2m_zero/.

English

Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/

V2M-Zero: Генерация музыки из видео с нулевым количеством пар и временным выравниванием

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

Аннотация

Support