VMAS: ウェブ音楽ビデオにおける意味的整合を通じたビデオから音楽への生成
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
著者: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
要旨
ビデオ入力から背景音楽を生成するためのフレームワークを提案します。既存の手法が数量や多様性に制限がある象徴的な音楽アノテーションに依存しているのに対し、当社の手法は背景音楽が付属する大規模なウェブビデオを活用しています。これにより、当社のモデルはリアルかつ多様な音楽を生成することを学習します。この目標を達成するために、新しい意味論的ビデオ-音楽アライメント方式を備えた生成ビデオ-音楽Transformerを開発します。当社のモデルは、高レベルのビデオコンテンツに整合する音楽の生成を促す共同自己回帰とコントラスティブ学習目的を使用しています。また、生成された音楽のビートをビデオ内の低レベルの動きに一致させるための新しいビデオ-ビートアライメント方式を導入しています。最後に、リアルな背景音楽生成に必要なビデオ内の細かい視覚的手がかりを捉えるために、新しい時間的ビデオエンコーダアーキテクチャを導入しています。これにより、多数の密にサンプリングされたフレームから構成されるビデオを効率的に処理できます。当社の新しくキュレーションされたDISCO-MVデータセットでフレームワークをトレーニングしました。このデータセットには2.2Mのビデオ-音楽サンプルが含まれており、これはビデオ音楽生成に使用された以前のデータセットよりも桁違いに大きいです。当社の手法は、DISCO-MVおよびMusicCapsデータセットで、人間の評価を含むさまざまな音楽生成評価メトリクスにおいて既存の手法を上回っています。結果は以下のリンクからご覧いただけます:https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary