ChatPaper.aiChatPaper

Instruct-MusicGen : Débloquer l'édition texte-vers-musique pour les modèles de langage musical via l'ajustement par instruction

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28, 2024
Auteurs: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Résumé

Les récents progrès dans l'édition de texte-à-musique, qui utilisent des requêtes textuelles pour modifier la musique (par exemple en changeant son style ou en ajustant les composants instrumentaux), présentent des défis et des opportunités uniques pour la création musicale assistée par l'IA. Les approches précédentes dans ce domaine ont été limitées par la nécessité d'entraîner des modèles d'édition spécifiques à partir de zéro, ce qui est à la fois coûteux en ressources et inefficace ; d'autres recherches utilisent des modèles de langage de grande taille pour prédire la musique éditée, ce qui entraîne une reconstruction audio imprécise. Pour combiner les forces et surmonter ces limitations, nous introduisons Instruct-MusicGen, une nouvelle approche qui affine un modèle MusicGen pré-entraîné pour suivre efficacement des instructions d'édition telles que l'ajout, la suppression ou la séparation de pistes. Notre approche implique une modification de l'architecture originale de MusicGen en incorporant un module de fusion de texte et un module de fusion audio, qui permettent au modèle de traiter simultanément les textes d'instructions et les entrées audio pour produire la musique éditée souhaitée. Remarquablement, Instruct-MusicGen n'introduit que 8 % de nouveaux paramètres au modèle MusicGen original et n'est entraîné que pour 5 000 étapes, tout en obtenant des performances supérieures à toutes les tâches par rapport aux modèles de référence existants, et en démontrant des performances comparables aux modèles entraînés pour des tâches spécifiques. Cette avancée améliore non seulement l'efficacité de l'édition de texte-à-musique, mais élargit également l'applicabilité des modèles de langage musical dans des environnements de production musicale dynamiques.
English
Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.

Summary

AI-Generated Summary

PDF233December 12, 2024