ChatPaper.aiChatPaper

Instruct-MusicGen: 명령어 튜닝을 통해 음악 언어 모델의 텍스트-투-음악 편집 기능 해제

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28, 2024
저자: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
cs.AI

초록

텍스트를 사용하여 음악을 수정(예: 스타일 변경 또는 악기 구성 요소 조정)하는 텍스트-투-뮤직 편집 분야의 최근 발전은 AI 지원 음악 창작에 있어 독특한 도전과 기회를 제공합니다. 이 분야의 기존 접근 방식은 특정 편집 모델을 처음부터 학습시켜야 하는 필요성에 의해 제약을 받아왔는데, 이는 자원 집약적이고 비효율적입니다. 다른 연구에서는 대형 언어 모델을 사용하여 편집된 음악을 예측하지만, 정확하지 않은 오디오 재구성이 이루어집니다. 이러한 강점을 결합하고 한계를 해결하기 위해, 우리는 사전 학습된 MusicGen 모델을 미세 조정하여 스템(stem) 추가, 제거 또는 분리와 같은 편집 지시를 효율적으로 따르는 새로운 접근 방식인 Instruct-MusicGen을 소개합니다. 우리의 접근 방식은 원래의 MusicGen 아키텍처를 수정하여 텍스트 융합 모듈과 오디오 융합 모듈을 통합함으로써, 모델이 지시 텍스트와 오디오 입력을 동시에 처리하고 원하는 편집된 음악을 생성할 수 있도록 합니다. 주목할 만한 점은, Instruct-MusicGen이 원래의 MusicGen 모델에 단 8%의 새로운 파라미터만 추가하고 5,000단계만 학습했음에도 불구하고, 모든 작업에서 기존 베이스라인을 능가하며 특정 작업을 위해 학습된 모델과 비슷한 성능을 보인다는 것입니다. 이 발전은 텍스트-투-뮤직 편집의 효율성을 향상시킬 뿐만 아니라, 동적 음악 제작 환경에서 음악 언어 모델의 적용 가능성을 확대합니다.
English
Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.

Summary

AI-Generated Summary

PDF233December 12, 2024