ChatPaper.aiChatPaper

V2Meow: ビジュアルビートに合わせてミュージック生成で鳴く

V2Meow: Meowing to the Visual Beat via Music Generation

May 11, 2023
著者: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI

要旨

ビデオの視覚的コンテンツに調和する高品質な音楽を生成することは、困難な課題です。既存の視覚条件付き音楽生成システムの多くは、生のオーディオ波形ではなく、MIDIファイルなどの記号的な音楽データを生成します。記号的な音楽データの利用可能性が限られているため、これらの手法では、特定の楽器や特定のタイプの視覚入力に対してのみ音楽を生成することができます。本論文では、多様なビデオ入力タイプの視覚的意味論にうまく整合する高品質な音楽オーディオを生成できる新しいアプローチ「V2Meow」を提案します。具体的には、提案する音楽生成システムは、野生のミュージックビデオから収集されたO(100K)の音楽オーディオクリップとビデオフレームのペアで訓練された多段階の自己回帰モデルであり、並列の記号的音楽データは使用しません。V2Meowは、任意の無音ビデオクリップから抽出された事前訓練済みの視覚的特徴に基づいて、高忠実度の音楽オーディオ波形を合成することができ、ビデオフレームの条件付けに加えて、テキストプロンプトを介して生成例の音楽スタイルを高レベルで制御することも可能です。定性的および定量的な評価を通じて、我々のモデルが視覚-オーディオ対応とオーディオ品質の両方において、既存のいくつかの音楽生成システムを凌駕することを示します。
English
Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.
PDF10December 15, 2024