Instruct-MusicGen: Desbloqueando la edición de texto a música para modelos de lenguaje musical mediante ajuste por instrucciones
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
May 28, 2024
Autores: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI
Resumen
Los recientes avances en la edición de texto a música, que emplean consultas de texto para modificar música (por ejemplo, cambiando su estilo o ajustando componentes instrumentales), presentan desafíos y oportunidades únicos para la creación de música asistida por IA. Los enfoques anteriores en este dominio se han visto limitados por la necesidad de entrenar modelos de edición específicos desde cero, lo cual es intensivo en recursos e ineficiente; otras investigaciones utilizan modelos de lenguaje grandes para predecir música editada, lo que resulta en una reconstrucción de audio imprecisa. Para combinar las fortalezas y abordar estas limitaciones, presentamos Instruct-MusicGen, un enfoque novedoso que ajusta un modelo MusicGen preentrenado para seguir eficientemente instrucciones de edición, como agregar, eliminar o separar pistas. Nuestro enfoque implica una modificación de la arquitectura original de MusicGen mediante la incorporación de un módulo de fusión de texto y un módulo de fusión de audio, que permiten al modelo procesar textos de instrucción y entradas de audio de manera concurrente y producir la música editada deseada. Notablemente, Instruct-MusicGen solo introduce un 8% de nuevos parámetros al modelo original de MusicGen y se entrena en solo 5K pasos, sin embargo, logra un rendimiento superior en todas las tareas en comparación con los baselines existentes, y demuestra un rendimiento comparable a los modelos entrenados para tareas específicas. Este avance no solo mejora la eficiencia de la edición de texto a música, sino que también amplía la aplicabilidad de los modelos de lenguaje musical en entornos dinámicos de producción musical.
English
Recent advances in text-to-music editing, which employ text queries to modify
music (e.g.\ by changing its style or adjusting instrumental components),
present unique challenges and opportunities for AI-assisted music creation.
Previous approaches in this domain have been constrained by the necessity to
train specific editing models from scratch, which is both resource-intensive
and inefficient; other research uses large language models to predict edited
music, resulting in imprecise audio reconstruction. To Combine the strengths
and address these limitations, we introduce Instruct-MusicGen, a novel approach
that finetunes a pretrained MusicGen model to efficiently follow editing
instructions such as adding, removing, or separating stems. Our approach
involves a modification of the original MusicGen architecture by incorporating
a text fusion module and an audio fusion module, which allow the model to
process instruction texts and audio inputs concurrently and yield the desired
edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters
to the original MusicGen model and only trains for 5K steps, yet it achieves
superior performance across all tasks compared to existing baselines, and
demonstrates performance comparable to the models trained for specific tasks.
This advancement not only enhances the efficiency of text-to-music editing but
also broadens the applicability of music language models in dynamic music
production environments.Summary
AI-Generated Summary