MusiConGen: Управление ритмом и аккордами для генерации музыки на основе трансформера из текста
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation
July 21, 2024
Авторы: Yun-Han Lan, Wen-Yi Hsiao, Hao-Chung Cheng, Yi-Hsuan Yang
cs.AI
Аннотация
Существующие модели текст в музыку могут создавать аудио высокого качества с большим разнообразием. Однако текстовые подсказки в одиночку не могут точно контролировать временные музыкальные особенности, такие как аккорды и ритм сгенерированной музыки. Для решения этой проблемы мы представляем MusiConGen, модель текст в музыку на основе трансформера, условно зависящую от времени, которая строится на основе предварительно обученной структуры MusicGen. Наше новшество заключается в эффективном механизме донастройки, адаптированном для графических процессоров потребительского уровня, который интегрирует автоматически извлеченный ритм и аккорды в качестве условного сигнала. Во время вывода условие может быть либо музыкальными особенностями, извлеченными из опорного аудиосигнала, либо пользовательски определенной символьной последовательностью аккордов, BPM и текстовыми подсказками. Наша оценка производительности на двух наборах данных -- один извлеченный из особенностей и другой из пользовательски созданных входных данных -- демонстрирует, что MusiConGen может генерировать реалистичную фоновую музыку, которая хорошо соответствует указанным условиям. Мы предоставляем код и контрольные точки модели с открытым исходным кодом, а также предоставляем аудио примеры онлайн, https://musicongen.github.io/musicongen_demo/.
English
Existing text-to-music models can produce high-quality audio with great
diversity. However, textual prompts alone cannot precisely control temporal
musical features such as chords and rhythm of the generated music. To address
this challenge, we introduce MusiConGen, a temporally-conditioned
Transformer-based text-to-music model that builds upon the pretrained MusicGen
framework. Our innovation lies in an efficient finetuning mechanism, tailored
for consumer-grade GPUs, that integrates automatically-extracted rhythm and
chords as the condition signal. During inference, the condition can either be
musical features extracted from a reference audio signal, or be user-defined
symbolic chord sequence, BPM, and textual prompts. Our performance evaluation
on two datasets -- one derived from extracted features and the other from
user-created inputs -- demonstrates that MusiConGen can generate realistic
backing track music that aligns well with the specified conditions. We
open-source the code and model checkpoints, and provide audio examples online,
https://musicongen.github.io/musicongen_demo/.Summary
AI-Generated Summary