ChatPaper.aiChatPaper

JEN-1 DreamStyler: Настройка индивидуального обучения музыкальным концепциям путем настройки ключевых параметров.

JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning

June 18, 2024
Авторы: Boyu Chen, Peike Li, Yao Yao, Alex Wang
cs.AI

Аннотация

Большие модели для генерации музыки по тексту достигли значительного прогресса, облегчая создание высококачественных и разнообразных музыкальных произведений по предоставленным текстовым подсказкам. Однако входные текстовые подсказки могут не точно передавать потребности пользователя, особенно когда целью является создание музыки, воплощающей определенную концепцию, выведенную из определенной коллекции ссылочных произведений. В данной статье мы предлагаем новый метод для индивидуализированной генерации музыки по тексту, способный улавливать концепцию из двухминутной ссылочной музыки и создавать новое музыкальное произведение, соответствующее данной концепции. Мы достигаем этого путем донастройки предварительно обученной модели генерации музыки по тексту с использованием ссылочной музыки. Однако прямая донастройка всех параметров приводит к проблемам переобучения. Для решения этой проблемы мы предлагаем метод настройки ключевых параметров, который позволяет модели усваивать новую концепцию, сохраняя ее исходные генеративные возможности. Кроме того, мы выявляем потенциальное противоречие концепций при введении нескольких концепций в предварительно обученную модель. Мы представляем стратегию улучшения концепции для различения нескольких концепций, позволяя донастроенной модели генерировать музыку, включающую как отдельные, так и несколько концепций одновременно. Поскольку мы первые, кто работает над задачей индивидуализированной генерации музыки, мы также представляем новый набор данных и протокол оценки для данной задачи. Наш предложенный Jen1-DreamStyler превосходит несколько базовых в качественной и количественной оценках. Демонстрации будут доступны на https://www.jenmusic.ai/research#DreamStyler.
English
Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.

Summary

AI-Generated Summary

PDF42December 4, 2024