ChatPaper.aiChatPaper

Instruct-MusicGen: Sbloccare l'editing da testo a musica per i modelli linguistici musicali tramite instruction tuning

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28, 2024
Autori: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

Abstract

I recenti progressi nell'editing testo-musica, che utilizzano query testuali per modificare la musica (ad esempio, cambiandone lo stile o aggiustando i componenti strumentali), presentano sfide e opportunità uniche per la creazione musicale assistita dall'IA. Gli approcci precedenti in questo ambito sono stati limitati dalla necessità di addestrare modelli di editing specifici da zero, un processo che è sia dispendioso in termini di risorse che inefficiente; altre ricerche utilizzano modelli linguistici di grandi dimensioni per prevedere la musica modificata, ottenendo una ricostruzione audio imprecisa. Per combinare i punti di forza e affrontare queste limitazioni, introduciamo Instruct-MusicGen, un approccio innovativo che ottimizza un modello MusicGen preaddestrato per seguire in modo efficiente istruzioni di editing come l'aggiunta, la rimozione o la separazione di tracce. Il nostro approccio prevede una modifica dell'architettura originale di MusicGen attraverso l'incorporazione di un modulo di fusione testuale e un modulo di fusione audio, che consentono al modello di elaborare contemporaneamente testi di istruzione e input audio, producendo la musica modificata desiderata. Notevolmente, Instruct-MusicGen introduce solo l'8% di nuovi parametri rispetto al modello MusicGen originale e viene addestrato per soli 5K passi, ottenendo comunque prestazioni superiori in tutti i compiti rispetto ai baselines esistenti e dimostrando prestazioni paragonabili ai modelli addestrati per compiti specifici. Questo avanzamento non solo migliora l'efficienza dell'editing testo-musica, ma amplia anche l'applicabilità dei modelli linguistici musicali in ambienti di produzione musicale dinamici.
English
Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.
PDF223February 8, 2026