JEN-1 DreamStyler: 핵심 매개변수 조정을 통한 맞춤형 음악 개념 학습
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
저자: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
초록
텍스트-음악 생성용 대형 모델은 상당한 진전을 이루며, 제공된 텍스트 프롬프트로부터 고품질이고 다양한 음악 작곡을 생성하는 것을 가능하게 했습니다. 그러나 입력 텍스트 프롬프트는 사용자의 요구 사항을 정확히 반영하지 못할 수 있으며, 특히 특정 참조 컬렉션에서 도출된 개념을 구현한 음악을 생성하는 것이 목표일 때 더욱 그러합니다. 본 논문에서는 2분 길이의 참조 음악에서 개념을 포착하고 해당 개념에 부합하는 새로운 음악을 생성할 수 있는 맞춤형 텍스트-음악 생성 방법을 제안합니다. 이를 위해 사전 학습된 텍스트-음악 모델을 참조 음악을 사용하여 미세 조정합니다. 그러나 모든 매개변수를 직접 미세 조정하면 과적합 문제가 발생합니다. 이 문제를 해결하기 위해, 새로운 개념을 흡수하면서도 모델의 원래 생성 능력을 유지할 수 있는 Pivotal Parameters Tuning 방법을 제안합니다. 또한, 사전 학습된 모델에 여러 개념을 도입할 때 발생할 수 있는 개념 충돌 문제를 식별합니다. 이를 해결하기 위해 여러 개념을 구별할 수 있는 개념 강화 전략을 제시하여, 미세 조정된 모델이 개별 개념 또는 여러 개념을 동시에 포함한 음악을 생성할 수 있도록 합니다. 맞춤형 음악 생성 작업에 대한 최초의 연구로서, 새로운 작업을 위한 데이터셋과 평가 프로토콜도 소개합니다. 우리가 제안한 Jen1-DreamStyler는 정성적 및 정량적 평가에서 여러 베이스라인을 능가합니다. 데모는 https://www.jenmusic.ai/research#DreamStyler에서 확인할 수 있습니다.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.Summary
AI-Generated Summary