ChatPaper.aiChatPaper

Generación de música simple y controlable

Simple and Controllable Music Generation

June 8, 2023
Autores: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI

Resumen

Abordamos la tarea de generación musical condicional. Presentamos MusicGen, un Modelo de Lenguaje (LM) único que opera sobre múltiples flujos de representación discreta comprimida de música, es decir, tokens. A diferencia de trabajos previos, MusicGen está compuesto por un transformer LM de una sola etapa junto con patrones eficientes de intercalación de tokens, lo que elimina la necesidad de encadenar varios modelos, por ejemplo, de manera jerárquica o mediante upsampling. Siguiendo este enfoque, demostramos cómo MusicGen puede generar muestras de alta calidad, mientras se condiciona en descripciones textuales o características melódicas, permitiendo un mejor control sobre la salida generada. Realizamos una evaluación empírica exhaustiva, considerando tanto estudios automáticos como humanos, mostrando que el enfoque propuesto es superior a las líneas base evaluadas en un benchmark estándar de texto a música. A través de estudios de ablación, arrojamos luz sobre la importancia de cada uno de los componentes que conforman MusicGen. Las muestras de música, el código y los modelos están disponibles en https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft.
PDF15725December 15, 2024