ChatPaper.aiChatPaper

M^{2}UGen: Multi-modales Musikverständnis und -generierung mit der Leistungsfähigkeit großer Sprachmodelle

M^{2}UGen: Multi-modal Music Understanding and Generation with the Power of Large Language Models

November 19, 2023
Autoren: Atin Sakkeer Hussain, Shansong Liu, Chenshuo Sun, Ying Shan
cs.AI

Zusammenfassung

Die aktuelle Forschungslage, die große Sprachmodelle (LLMs) nutzt, erlebt einen deutlichen Aufschwung. Viele Arbeiten nutzen die leistungsstarken Fähigkeiten dieser Modelle, um verschiedene Modalitäten wie Text, Sprache, Bilder, Videos usw. zu verstehen. Sie verwenden LLMs auch, um menschliche Absichten zu erfassen und gewünschte Ausgaben wie Bilder, Videos und Musik zu generieren. Dennoch ist die Forschung, die sowohl das Verständnis als auch die Generierung mit LLMs kombiniert, noch begrenzt und befindet sich in einem frühen Stadium. Um diese Lücke zu schließen, stellen wir ein Multi-modales Musikverständnis- und Generierungsframework (M^{2}UGen) vor, das die Fähigkeiten von LLMs integriert, um Musik für verschiedene Modalitäten zu verstehen und zu generieren. Das M^{2}UGen-Framework wurde speziell entwickelt, um kreatives Potenzial aus verschiedenen Inspirationsquellen wie Musik, Bildern und Videos durch die Verwendung von vortrainierten MERT-, ViT- und ViViT-Modellen freizusetzen. Um die Musikgenerierung zu ermöglichen, untersuchen wir den Einsatz von AudioLDM 2 und MusicGen. Die Brücke zwischen multi-modalem Verständnis und Musikgenerierung wird durch die Integration des LLaMA 2-Modells geschlagen. Darüber hinaus nutzen wir das MU-LLaMA-Modell, um umfangreiche Datensätze zu generieren, die die Text-/Bild-/Video-zu-Musik-Generierung unterstützen und das Training unseres M^{2}UGen-Frameworks erleichtern. Wir führen eine umfassende Bewertung unseres vorgeschlagenen Frameworks durch. Die experimentellen Ergebnisse zeigen, dass unser Modell die Leistung der aktuellen State-of-the-Art-Modelle erreicht oder übertrifft.
English
The current landscape of research leveraging large language models (LLMs) is experiencing a surge. Many works harness the powerful reasoning capabilities of these models to comprehend various modalities, such as text, speech, images, videos, etc. They also utilize LLMs to understand human intention and generate desired outputs like images, videos, and music. However, research that combines both understanding and generation using LLMs is still limited and in its nascent stage. To address this gap, we introduce a Multi-modal Music Understanding and Generation (M^{2}UGen) framework that integrates LLM's abilities to comprehend and generate music for different modalities. The M^{2}UGen framework is purpose-built to unlock creative potential from diverse sources of inspiration, encompassing music, image, and video through the use of pretrained MERT, ViT, and ViViT models, respectively. To enable music generation, we explore the use of AudioLDM 2 and MusicGen. Bridging multi-modal understanding and music generation is accomplished through the integration of the LLaMA 2 model. Furthermore, we make use of the MU-LLaMA model to generate extensive datasets that support text/image/video-to-music generation, facilitating the training of our M^{2}UGen framework. We conduct a thorough evaluation of our proposed framework. The experimental results demonstrate that our model achieves or surpasses the performance of the current state-of-the-art models.
PDF61December 15, 2024