JEN-1 DreamStyler: Aprendizaje de Conceptos Musicales Personalizados mediante el Ajuste de Parámetros Pivote
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
June 18, 2024
Autores: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI
Resumen
Los modelos de gran escala para la generación de música a partir de texto han logrado avances significativos, facilitando la creación de composiciones musicales de alta calidad y variadas a partir de indicaciones textuales proporcionadas. Sin embargo, las indicaciones textuales de entrada pueden no captar con precisión los requisitos del usuario, especialmente cuando el objetivo es generar música que encarne un concepto específico derivado de una colección de referencia designada. En este artículo, proponemos un método novedoso para la generación personalizada de música a partir de texto, que puede capturar el concepto a partir de una música de referencia de dos minutos y generar una nueva pieza musical que se ajuste a dicho concepto. Logramos esto mediante el ajuste fino de un modelo preentrenado de generación de música a partir de texto utilizando la música de referencia. Sin embargo, el ajuste fino directo de todos los parámetros conduce a problemas de sobreajuste. Para abordar este problema, proponemos un método de Ajuste de Parámetros Clave que permite al modelo asimilar el nuevo concepto mientras preserva sus capacidades generativas originales. Además, identificamos un posible conflicto de conceptos al introducir múltiples conceptos en el modelo preentrenado. Presentamos una estrategia de mejora de conceptos para distinguir múltiples conceptos, permitiendo que el modelo ajustado genere música que incorpore conceptos individuales o múltiples simultáneamente. Dado que somos los primeros en trabajar en la tarea de generación de música personalizada, también introducimos un nuevo conjunto de datos y un protocolo de evaluación para esta nueva tarea. Nuestro Jen1-DreamStyler propuesto supera a varias líneas base en evaluaciones tanto cualitativas como cuantitativas. Las demostraciones estarán disponibles en https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress,
facilitating the creation of high-quality and varied musical compositions from
provided text prompts. However, input text prompts may not precisely capture
user requirements, particularly when the objective is to generate music that
embodies a specific concept derived from a designated reference collection. In
this paper, we propose a novel method for customized text-to-music generation,
which can capture the concept from a two-minute reference music and generate a
new piece of music conforming to the concept. We achieve this by fine-tuning a
pretrained text-to-music model using the reference music. However, directly
fine-tuning all parameters leads to overfitting issues. To address this
problem, we propose a Pivotal Parameters Tuning method that enables the model
to assimilate the new concept while preserving its original generative
capabilities. Additionally, we identify a potential concept conflict when
introducing multiple concepts into the pretrained model. We present a concept
enhancement strategy to distinguish multiple concepts, enabling the fine-tuned
model to generate music incorporating either individual or multiple concepts
simultaneously. Since we are the first to work on the customized music
generation task, we also introduce a new dataset and evaluation protocol for
the new task. Our proposed Jen1-DreamStyler outperforms several baselines in
both qualitative and quantitative evaluations. Demos will be available at
https://www.jenmusic.ai/research#DreamStyler.Summary
AI-Generated Summary