Instruct-MusicGen: Desbloqueando a Edição de Texto para Música em Modelos de Linguagem Musical via Ajuste por Instrução
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
May 28, 2024
Autores: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Resumo
Os recentes avanços na edição de texto para música, que empregam consultas de texto para modificar músicas (por exemplo, alterando seu estilo ou ajustando componentes instrumentais), apresentam desafios e oportunidades únicos para a criação de música assistida por IA. As abordagens anteriores nesse domínio foram limitadas pela necessidade de treinar modelos específicos de edição do zero, o que é tanto intensivo em recursos quanto ineficiente; outras pesquisas utilizam modelos de linguagem de grande escala para prever músicas editadas, resultando em uma reconstrução de áudio imprecisa. Para combinar os pontos fortes e abordar essas limitações, introduzimos o Instruct-MusicGen, uma nova abordagem que ajusta um modelo MusicGen pré-treinado para seguir eficientemente instruções de edição, como adicionar, remover ou separar stems. Nossa abordagem envolve uma modificação da arquitetura original do MusicGen, incorporando um módulo de fusão de texto e um módulo de fusão de áudio, que permitem que o modelo processe textos de instrução e entradas de áudio simultaneamente e produza a música editada desejada. Notavelmente, o Instruct-MusicGen introduz apenas 8% de novos parâmetros ao modelo MusicGen original e é treinado por apenas 5K passos, mas alcança desempenho superior em todas as tarefas em comparação com as baselines existentes e demonstra desempenho comparável aos modelos treinados para tarefas específicas. Esse avanço não apenas aumenta a eficiência da edição de texto para música, mas também amplia a aplicabilidade dos modelos de linguagem musical em ambientes dinâmicos de produção musical.
English
Recent advances in text-to-music editing, which employ text queries to modify
music (e.g.\ by changing its style or adjusting instrumental components),
present unique challenges and opportunities for AI-assisted music creation.
Previous approaches in this domain have been constrained by the necessity to
train specific editing models from scratch, which is both resource-intensive
and inefficient; other research uses large language models to predict edited
music, resulting in imprecise audio reconstruction. To Combine the strengths
and address these limitations, we introduce Instruct-MusicGen, a novel approach
that finetunes a pretrained MusicGen model to efficiently follow editing
instructions such as adding, removing, or separating stems. Our approach
involves a modification of the original MusicGen architecture by incorporating
a text fusion module and an audio fusion module, which allow the model to
process instruction texts and audio inputs concurrently and yield the desired
edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters
to the original MusicGen model and only trains for 5K steps, yet it achieves
superior performance across all tasks compared to existing baselines, and
demonstrates performance comparable to the models trained for specific tasks.
This advancement not only enhances the efficiency of text-to-music editing but
also broadens the applicability of music language models in dynamic music
production environments.