ChatPaper.aiChatPaper

MuseControlLite: Многофункциональная генерация музыки с использованием облегченных управляющих условий

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

June 23, 2025
Авторы: Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI

Аннотация

Мы представляем MuseControlLite — легковесный механизм, предназначенный для тонкой настройки моделей генерации музыки из текста с целью точного управления с использованием различных временно-зависимых музыкальных атрибутов и эталонных аудиосигналов. Ключевой вывод заключается в том, что позиционные эмбеддинги, которые редко использовались в моделях генерации музыки из текста для обработки текстовых условий, становятся критически важными, когда условие зависит от времени. На примере управления мелодией наши эксперименты показывают, что простое добавление ротационных позиционных эмбеддингов в разделенные слои кросс-внимания повышает точность управления с 56,6% до 61,1%, при этом требуя в 6,75 раз меньше обучаемых параметров по сравнению с современными механизмами тонкой настройки, использующими ту же предобученную диффузионную трансформерную модель Stable Audio Open. Мы оцениваем различные формы управления музыкальными атрибутами, аудиоинпейнтинг и аудиоаутпейнтинг, демонстрируя улучшенную управляемость по сравнению с MusicGen-Large и Stable Audio Open ControlNet при значительно меньших затратах на тонкую настройку, с использованием всего 85 миллионов обучаемых параметров. Исходный код, контрольные точки модели и демонстрационные примеры доступны по адресу: https://musecontrollite.github.io/web/.
English
We propose MuseControlLite, a lightweight mechanism designed to fine-tune text-to-music generation models for precise conditioning using various time-varying musical attributes and reference audio signals. The key finding is that positional embeddings, which have been seldom used by text-to-music generation models in the conditioner for text conditions, are critical when the condition of interest is a function of time. Using melody control as an example, our experiments show that simply adding rotary positional embeddings to the decoupled cross-attention layers increases control accuracy from 56.6% to 61.1%, while requiring 6.75 times fewer trainable parameters than state-of-the-art fine-tuning mechanisms, using the same pre-trained diffusion Transformer model of Stable Audio Open. We evaluate various forms of musical attribute control, audio inpainting, and audio outpainting, demonstrating improved controllability over MusicGen-Large and Stable Audio Open ControlNet at a significantly lower fine-tuning cost, with only 85M trainble parameters. Source code, model checkpoints, and demo examples are available at: https://musecontrollite.github.io/web/.
PDF11June 27, 2025