ChatPaper.aiChatPaper

MusiConGen: 트랜스포머 기반 텍스트-음악 생성을 위한 리듬과 코드 제어

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

July 21, 2024
저자: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

초록

기존의 텍스트-음악 모델은 높은 품질과 다양한 음악을 생성할 수 있습니다. 그러나 텍스트 프롬프트만으로는 생성된 음악의 코드와 리듬과 같은 시간적 음악적 특징을 정밀하게 제어하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 사전 학습된 MusicGen 프레임워크를 기반으로 한 시간적 조건을 갖춘 Transformer 기반 텍스트-음악 모델인 MusiConGen을 소개합니다. 우리의 혁신은 소비자용 GPU에 맞춰진 효율적인 파인튜닝 메커니즘에 있으며, 이는 자동으로 추출된 리듬과 코드를 조건 신호로 통합합니다. 추론 과정에서 이 조건은 참조 오디오 신호에서 추출된 음악적 특징이거나, 사용자 정의 기호 코드 시퀀스, BPM, 텍스트 프롬프트가 될 수 있습니다. 추출된 특징과 사용자 생성 입력으로 구성된 두 데이터셋에 대한 성능 평가를 통해, MusiConGen이 지정된 조건과 잘 맞는 현실적인 백킹 트랙 음악을 생성할 수 있음을 입증했습니다. 우리는 코드와 모델 체크포인트를 오픈소스로 공개하고, 오디오 예제를 온라인에서 제공합니다. https://musicongen.github.io/musicongen_demo/
English
Existing text-to-music models can produce high-quality audio with great diversity. However, textual prompts alone cannot precisely control temporal musical features such as chords and rhythm of the generated music. To address this challenge, we introduce MusiConGen, a temporally-conditioned Transformer-based text-to-music model that builds upon the pretrained MusicGen framework. Our innovation lies in an efficient finetuning mechanism, tailored for consumer-grade GPUs, that integrates automatically-extracted rhythm and chords as the condition signal. During inference, the condition can either be musical features extracted from a reference audio signal, or be user-defined symbolic chord sequence, BPM, and textual prompts. Our performance evaluation on two datasets -- one derived from extracted features and the other from user-created inputs -- demonstrates that MusiConGen can generate realistic backing track music that aligns well with the specified conditions. We open-source the code and model checkpoints, and provide audio examples online, https://musicongen.github.io/musicongen_demo/.

Summary

AI-Generated Summary

PDF92November 28, 2024