Eenvoudige en beheersbare muziekgeneratie
Simple and Controllable Music Generation
June 8, 2023
Auteurs: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI
Samenvatting
We pakken de taak van conditionele muziekgeneratie aan. We introduceren MusicGen, een enkel Taalmodel (LM) dat werkt over meerdere stromen van gecomprimeerde discrete muziekrepresentaties, d.w.z. tokens. In tegenstelling tot eerder werk bestaat MusicGen uit een transformer LM in één fase, samen met efficiënte token-interleavingpatronen, waardoor de noodzaak van het cascaderen van meerdere modellen, bijvoorbeeld hiërarchisch of upsampling, wordt geëlimineerd. Door deze aanpak te volgen, demonstreren we hoe MusicGen hoogwaardige samples kan genereren, terwijl het wordt geconditioneerd op tekstuele beschrijvingen of melodische kenmerken, wat betere controle over het gegenereerde resultaat mogelijk maakt. We voeren een uitgebreide empirische evaluatie uit, waarbij zowel automatische als menselijke studies worden overwogen, en tonen aan dat de voorgestelde aanpak superieur is aan de geëvalueerde baselines op een standaard tekst-naar-muziek benchmark. Door middel van ablatiestudies werpen we licht op het belang van elk van de componenten waaruit MusicGen bestaat. Muziekvoorbeelden, code en modellen zijn beschikbaar op https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, while being conditioned on textual
description or melodic features, allowing better controls over the generated
output. We conduct extensive empirical evaluation, considering both automatic
and human studies, showing the proposed approach is superior to the evaluated
baselines on a standard text-to-music benchmark. Through ablation studies, we
shed light over the importance of each of the components comprising MusicGen.
Music samples, code, and models are available at
https://github.com/facebookresearch/audiocraft.