Простое и управляемое создание музыки
Simple and Controllable Music Generation
June 8, 2023
Авторы: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI
Аннотация
Мы решаем задачу условной генерации музыки. Представляем MusicGen — единую языковую модель (LM), которая работает с несколькими потоками сжатого дискретного представления музыки, то есть токенами. В отличие от предыдущих работ, MusicGen состоит из одноэтапной трансформерной LM вместе с эффективными схемами чередования токенов, что устраняет необходимость каскадирования нескольких моделей, например, иерархически или с повышением частоты дискретизации. Следуя этому подходу, мы демонстрируем, как MusicGen может генерировать высококачественные образцы, будучи обусловленным текстовым описанием или мелодическими характеристиками, что позволяет лучше контролировать генерируемый результат. Мы проводим обширную эмпирическую оценку, включая как автоматические, так и экспертные исследования, показывая, что предложенный подход превосходит оцениваемые базовые методы на стандартном бенчмарке для задачи "текст-в-музыку". С помощью исследований по удалению компонентов мы раскрываем важность каждого из элементов, составляющих MusicGen. Примеры музыки, код и модели доступны по адресу https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, while being conditioned on textual
description or melodic features, allowing better controls over the generated
output. We conduct extensive empirical evaluation, considering both automatic
and human studies, showing the proposed approach is superior to the evaluated
baselines on a standard text-to-music benchmark. Through ablation studies, we
shed light over the importance of each of the components comprising MusicGen.
Music samples, code, and models are available at
https://github.com/facebookresearch/audiocraft.