MuseCoco: Генерация символьной музыки из текста
MuseCoco: Generating Symbolic Music from Text
May 31, 2023
Авторы: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian
cs.AI
Аннотация
Генерация музыки из текстовых описаний представляет собой удобный для пользователя подход, поскольку текст является относительно простым интерфейсом для взаимодействия. Хотя некоторые методы используют тексты для управления генерацией музыкального аудио, редактирование музыкальных элементов в сгенерированном аудио остается сложной задачей для пользователей. В отличие от этого, символическая музыка обеспечивает легкость редактирования, что делает ее более доступной для манипуляции конкретными музыкальными элементами. В данной статье мы предлагаем MuseCoco, который генерирует символическую музыку из текстовых описаний, используя музыкальные атрибуты в качестве связующего звена для разделения задачи на этапы понимания текста в атрибуты и генерации музыки из атрибутов. MuseCoco (Music Composition Copilot) позволяет музыкантам создавать музыку непосредственно из заданных текстовых описаний, что значительно повышает эффективность по сравнению с созданием музыки с нуля. Система имеет два основных преимущества: во-первых, она эффективно использует данные. На этапе генерации музыки из атрибутов атрибуты могут быть напрямую извлечены из музыкальных последовательностей, что делает обучение модели самообучаемым. На этапе понимания текста в атрибуты текст синтезируется и уточняется ChatGPT на основе заданных шаблонов атрибутов. Во-вторых, система обеспечивает точный контроль с использованием конкретных атрибутов в текстовых описаниях и предлагает множество вариантов управления через подходы, основанные на атрибутах или тексте. MuseCoco превосходит базовые системы по музыкальности, управляемости и общему баллу как минимум на 1.27, 1.08 и 1.32 соответственно. Кроме того, наблюдается заметное улучшение точности объективного контроля примерно на 20%. Дополнительно мы разработали мощную крупномасштабную модель с 1.2 миллиардами параметров, демонстрирующую исключительную управляемость и музыкальность.
English
Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.