Generación de música simple y controlable
Simple and Controllable Music Generation
June 8, 2023
Autores: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI
Resumen
Abordamos la tarea de generación musical condicional. Presentamos MusicGen, un
Modelo de Lenguaje (LM) único que opera sobre múltiples flujos de representación
discreta comprimida de música, es decir, tokens. A diferencia de trabajos previos,
MusicGen está compuesto por un transformer LM de una sola etapa junto con patrones
eficientes de intercalación de tokens, lo que elimina la necesidad de encadenar
varios modelos, por ejemplo, de manera jerárquica o mediante upsampling. Siguiendo
este enfoque, demostramos cómo MusicGen puede generar muestras de alta calidad,
mientras se condiciona en descripciones textuales o características melódicas,
permitiendo un mejor control sobre la salida generada. Realizamos una evaluación
empírica exhaustiva, considerando tanto estudios automáticos como humanos, mostrando
que el enfoque propuesto es superior a las líneas base evaluadas en un benchmark
estándar de texto a música. A través de estudios de ablación, arrojamos luz sobre
la importancia de cada uno de los componentes que conforman MusicGen. Las muestras
de música, el código y los modelos están disponibles en
https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, while being conditioned on textual
description or melodic features, allowing better controls over the generated
output. We conduct extensive empirical evaluation, considering both automatic
and human studies, showing the proposed approach is superior to the evaluated
baselines on a standard text-to-music benchmark. Through ablation studies, we
shed light over the importance of each of the components comprising MusicGen.
Music samples, code, and models are available at
https://github.com/facebookresearch/audiocraft.