ChatPaper.aiChatPaper

Instruct-MusicGen: Разблокирование редактирования текста в музыку для моделей языка музыки через настройку инструкций

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28, 2024
Авторы: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Аннотация

Недавние достижения в области редактирования текста в музыку, которые используют текстовые запросы для модификации музыки (например, изменение стиля или коррекцию инструментальных компонентов), представляют уникальные вызовы и возможности для создания музыки с помощью искусственного интеллекта. Предыдущие подходы в этой области ограничивались необходимостью обучения специфических моделей редактирования с нуля, что является затратным и неэффективным; другие исследования используют большие языковые модели для предсказания отредактированной музыки, что приводит к неточной реконструкции аудио. Для объединения преимуществ и преодоления этих ограничений мы представляем Instruct-MusicGen, новый подход, который донастраивает предварительно обученную модель MusicGen для эффективного выполнения инструкций по редактированию, таких как добавление, удаление или разделение компонентов. Наш подход включает модификацию исходной архитектуры MusicGen путем внедрения модуля текстового слияния и модуля аудио слияния, которые позволяют модели обрабатывать текстовые инструкции и аудио входы одновременно и получать желаемую отредактированную музыку. Замечательно, Instruct-MusicGen вносит всего 8% новых параметров в исходную модель MusicGen и обучается всего 5 тыс. шагов, однако достигает превосходных результатов по всем задачам по сравнению с существующими базовыми моделями и демонстрирует производительность, сравнимую с моделями, обученными для конкретных задач. Этот прогресс не только повышает эффективность редактирования текста в музыку, но также расширяет применимость языковых моделей в динамичных средах производства музыки.
English
Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.

Summary

AI-Generated Summary

PDF233December 12, 2024