JEN-1 DreamStyler: Aprendizado de Conceitos Musicais Personalizados por meio de Ajuste de Parâmetros Pivôs
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
Autores: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
Resumo
Modelos de grande escala para geração de música a partir de texto alcançaram progressos significativos, facilitando a criação de composições musicais de alta qualidade e variadas a partir de prompts de texto fornecidos. No entanto, os prompts de texto de entrada podem não capturar com precisão os requisitos do usuário, especialmente quando o objetivo é gerar música que incorpore um conceito específico derivado de uma coleção de referência designada. Neste artigo, propomos um novo método para geração personalizada de música a partir de texto, que pode capturar o conceito de uma música de referência de dois minutos e gerar uma nova peça musical que se alinhe com esse conceito. Isso é alcançado por meio do ajuste fino de um modelo pré-treinado de geração de música a partir de texto utilizando a música de referência. No entanto, o ajuste fino direto de todos os parâmetros leva a problemas de sobreajuste. Para resolver essa questão, propomos um método de Ajuste de Parâmetros Pivôs que permite ao modelo assimilar o novo conceito enquanto preserva suas capacidades generativas originais. Além disso, identificamos um potencial conflito de conceitos ao introduzir múltiplos conceitos no modelo pré-treinado. Apresentamos uma estratégia de aprimoramento de conceitos para distinguir múltiplos conceitos, permitindo que o modelo ajustado gere música incorporando conceitos individuais ou múltiplos simultaneamente. Como somos os primeiros a trabalhar na tarefa de geração personalizada de música, também introduzimos um novo conjunto de dados e protocolo de avaliação para essa nova tarefa. Nosso Jen1-DreamStyler proposto supera várias baselines em avaliações qualitativas e quantitativas. Demonstrações estarão disponíveis em https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.