ChatPaper.aiChatPaper

Eenvoudige en beheersbare muziekgeneratie

Simple and Controllable Music Generation

June 8, 2023
Auteurs: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI

Samenvatting

We pakken de taak van conditionele muziekgeneratie aan. We introduceren MusicGen, een enkel Taalmodel (LM) dat werkt over meerdere stromen van gecomprimeerde discrete muziekrepresentaties, d.w.z. tokens. In tegenstelling tot eerder werk bestaat MusicGen uit een transformer LM in één fase, samen met efficiënte token-interleavingpatronen, waardoor de noodzaak van het cascaderen van meerdere modellen, bijvoorbeeld hiërarchisch of upsampling, wordt geëlimineerd. Door deze aanpak te volgen, demonstreren we hoe MusicGen hoogwaardige samples kan genereren, terwijl het wordt geconditioneerd op tekstuele beschrijvingen of melodische kenmerken, wat betere controle over het gegenereerde resultaat mogelijk maakt. We voeren een uitgebreide empirische evaluatie uit, waarbij zowel automatische als menselijke studies worden overwogen, en tonen aan dat de voorgestelde aanpak superieur is aan de geëvalueerde baselines op een standaard tekst-naar-muziek benchmark. Door middel van ablatiestudies werpen we licht op het belang van elk van de componenten waaruit MusicGen bestaat. Muziekvoorbeelden, code en modellen zijn beschikbaar op https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft.
PDF16225December 15, 2024