M^{2}UGen: 大規模言語モデルの力を活用したマルチモーダル音楽理解と生成
M^{2}UGen: Multi-modal Music Understanding and Generation with the Power of Large Language Models
November 19, 2023
著者: Atin Sakkeer Hussain, Shansong Liu, Chenshuo Sun, Ying Shan
cs.AI
要旨
大規模言語モデル(LLM)を活用した研究の現状は、急速な発展を遂げています。多くの研究が、これらのモデルの強力な推論能力を活用して、テキスト、音声、画像、動画など様々なモダリティを理解しています。また、LLMを利用して人間の意図を理解し、画像、動画、音楽などの所望の出力を生成することも行われています。しかし、LLMを用いた理解と生成の両方を組み合わせた研究はまだ限られており、初期段階にあります。このギャップを埋めるため、我々はマルチモーダル音楽理解と生成(M^{2}UGen)フレームワークを提案します。このフレームワークは、LLMの能力を統合し、異なるモダリティの音楽を理解し生成することを目的としています。M^{2}UGenフレームワークは、事前学習済みのMERT、ViT、ViViTモデルをそれぞれ使用して、音楽、画像、動画といった多様なインスピレーション源から創造的な可能性を引き出すために特別に設計されています。音楽生成を可能にするため、AudioLDM 2とMusicGenの使用を検討しています。マルチモーダル理解と音楽生成を橋渡しするために、LLaMA 2モデルを統合しています。さらに、MU-LLaMAモデルを利用して、テキスト/画像/動画から音楽を生成するための大規模なデータセットを生成し、M^{2}UGenフレームワークのトレーニングを容易にしています。提案したフレームワークの徹底的な評価を行い、実験結果は我々のモデルが現在の最先端モデルの性能を達成または上回ることを示しています。
English
The current landscape of research leveraging large language models (LLMs) is
experiencing a surge. Many works harness the powerful reasoning capabilities of
these models to comprehend various modalities, such as text, speech, images,
videos, etc. They also utilize LLMs to understand human intention and generate
desired outputs like images, videos, and music. However, research that combines
both understanding and generation using LLMs is still limited and in its
nascent stage. To address this gap, we introduce a Multi-modal Music
Understanding and Generation (M^{2}UGen) framework that integrates LLM's
abilities to comprehend and generate music for different modalities. The
M^{2}UGen framework is purpose-built to unlock creative potential from
diverse sources of inspiration, encompassing music, image, and video through
the use of pretrained MERT, ViT, and ViViT models, respectively. To enable
music generation, we explore the use of AudioLDM 2 and MusicGen. Bridging
multi-modal understanding and music generation is accomplished through the
integration of the LLaMA 2 model. Furthermore, we make use of the MU-LLaMA
model to generate extensive datasets that support text/image/video-to-music
generation, facilitating the training of our M^{2}UGen framework. We conduct
a thorough evaluation of our proposed framework. The experimental results
demonstrate that our model achieves or surpasses the performance of the current
state-of-the-art models.