V2M-Zero: ゼロペア時間同期ビデオ・ミュージック生成
V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation
March 11, 2026
著者: Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. Bryan
cs.AI
要旨
映像イベントと時間的に整合する音楽生成は、既存のテキスト音楽生成モデルにとって課題である。これらは細粒度の時間制御を欠いている。本論文では、映像に時間整合した音楽を出力するゼロペアの映像音楽生成手法V2M-Zeroを提案する。我々の手法は、時間的同期には「何が変化するか」ではなく、「いつ」「どれだけ変化が生じるか」の一致が必要であるという重要な観察に基づく。音楽的イベントと視覚的イベントは意味的には異なるが、各モダリティ内で独立に捕捉可能な共有の時間的構造を示す。我々は、事前学習済みの音楽エンコーダと映像エンコーダを用いたモダリティ内類似度から計算されるイベント曲線を通じてこの構造を捕捉する。各モダリティ内の時間的変化を独立に測定することで、これらの曲線はモダリティ間で比較可能な表現を提供する。これにより、テキスト音楽モデルを音楽イベント曲線でファインチューニングし、推論時にクロスモーダル学習やペアデータなしで映像イベント曲線に置き換えるという単純な学習戦略が可能となる。OES-Pub、MovieGenBench-Music、AIST++における評価では、V2M-Zeroはペアデータベースラインを大幅に上回り、音質5-21%向上、意味的整合性13-15%向上、時間的同期性21-52%改善、ダンス映像におけるビート整合性28%向上を達成した。大規模クラウドソーシング主観聴取試験でも同様の結果が得られた。全体として、ペアとなったクロスモーダル教師信号ではなく、モダリティ内特徴を通じた時間的整合性が映像音楽生成に有効であることを実証する。結果はhttps://genjib.github.io/v2m_zero/で公開されている。
English
Generating music that temporally aligns with video events is challenging for existing text-to-music models, which lack fine-grained temporal control. We introduce V2M-Zero, a zero-pair video-to-music generation approach that outputs time-aligned music for video. Our method is motivated by a key observation: temporal synchronization requires matching when and how much change occurs, not what changes. While musical and visual events differ semantically, they exhibit shared temporal structure that can be captured independently within each modality. We capture this structure through event curves computed from intra-modal similarity using pretrained music and video encoders. By measuring temporal change within each modality independently, these curves provide comparable representations across modalities. This enables a simple training strategy: fine-tune a text-to-music model on music-event curves, then substitute video-event curves at inference without cross-modal training or paired data. Across OES-Pub, MovieGenBench-Music, and AIST++, V2M-Zero achieves substantial gains over paired-data baselines: 5-21% higher audio quality, 13-15% better semantic alignment, 21-52% improved temporal synchronization, and 28% higher beat alignment on dance videos. We find similar results via a large crowd-source subjective listening test. Overall, our results validate that temporal alignment through within-modality features, rather than paired cross-modal supervision, is effective for video-to-music generation. Results are available at https://genjib.github.io/v2m_zero/