ChatPaper.aiChatPaper

明示的なブリッジと検索拡張を備えたマルチモーダル音楽生成

Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation

December 12, 2024
著者: Baisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu
cs.AI

要旨

マルチモーダル音楽生成は、テキスト、ビデオ、画像など多様な入力モダリティから音楽を生成することを目指しています。既存の手法は、マルチモーダル融合のための共通の埋め込み空間を使用しています。他のモダリティでの効果的な使用にもかかわらず、マルチモーダル音楽生成への適用には、データの不足、弱いクロスモーダルの整合性、制御性の限界といった課題があります。本論文では、テキストと音楽の明示的なブリッジを使用してこれらの問題に取り組んでいます。Visuals Music Bridge(VMB)という新しい手法を導入します。具体的には、マルチモーダル音楽記述モデルが視覚的入力を詳細なテキスト記述に変換してテキストブリッジを提供し、広範囲とターゲットを組み合わせたリトリーバル戦略を使用して音楽ブリッジを提供し、ユーザー制御を可能にするデュアルトラック音楽リトリーバルモジュールを備えています。最後に、2つのブリッジに基づいて音楽を生成するための明示的に条件付けられた音楽生成フレームワークを設計しています。ビデオから音楽、画像から音楽、テキストから音楽、および制御可能な音楽生成タスクに関する実験を実施し、制御性に関する実験も行っています。その結果、VMBは以前の手法と比較して、音楽の品質、モダリティ、およびカスタマイズの整合性を大幅に向上させることが示されました。VMBは、さまざまなマルチメディア分野での応用を持つ解釈可能で表現豊かなマルチモーダル音楽生成の新たな標準を確立しています。デモとコードはhttps://github.com/wbs2788/VMB で入手可能です。
English
Multimodal music generation aims to produce music from diverse input modalities, including text, videos, and images. Existing methods use a common embedding space for multimodal fusion. Despite their effectiveness in other modalities, their application in multimodal music generation faces challenges of data scarcity, weak cross-modal alignment, and limited controllability. This paper addresses these issues by using explicit bridges of text and music for multimodal alignment. We introduce a novel method named Visuals Music Bridge (VMB). Specifically, a Multimodal Music Description Model converts visual inputs into detailed textual descriptions to provide the text bridge; a Dual-track Music Retrieval module that combines broad and targeted retrieval strategies to provide the music bridge and enable user control. Finally, we design an Explicitly Conditioned Music Generation framework to generate music based on the two bridges. We conduct experiments on video-to-music, image-to-music, text-to-music, and controllable music generation tasks, along with experiments on controllability. The results demonstrate that VMB significantly enhances music quality, modality, and customization alignment compared to previous methods. VMB sets a new standard for interpretable and expressive multimodal music generation with applications in various multimedia fields. Demos and code are available at https://github.com/wbs2788/VMB.

Summary

AI-Generated Summary

PDF74December 16, 2024