Génération musicale simple et contrôlable
Simple and Controllable Music Generation
June 8, 2023
Auteurs: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI
Résumé
Nous abordons la tâche de génération musicale conditionnelle. Nous présentons MusicGen, un modèle de langage (LM) unique qui opère sur plusieurs flux de représentation musicale discrète compressée, c'est-à-dire des tokens. Contrairement aux travaux antérieurs, MusicGen est composé d'un modèle de transformateur à une seule étape, accompagné de motifs efficaces d'entrelacement de tokens, ce qui élimine la nécessité de cascader plusieurs modèles, par exemple de manière hiérarchique ou par suréchantillonnage. En suivant cette approche, nous démontrons comment MusicGen peut générer des échantillons de haute qualité, tout en étant conditionné par des descriptions textuelles ou des caractéristiques mélodiques, permettant un meilleur contrôle sur la sortie générée. Nous menons une évaluation empirique approfondie, en considérant à la fois des études automatiques et humaines, montrant que l'approche proposée est supérieure aux baselines évaluées sur un benchmark standard de texte-à-musique. Grâce à des études d'ablation, nous mettons en lumière l'importance de chacun des composants qui constituent MusicGen. Les échantillons musicaux, le code et les modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, while being conditioned on textual
description or melodic features, allowing better controls over the generated
output. We conduct extensive empirical evaluation, considering both automatic
and human studies, showing the proposed approach is superior to the evaluated
baselines on a standard text-to-music benchmark. Through ablation studies, we
shed light over the importance of each of the components comprising MusicGen.
Music samples, code, and models are available at
https://github.com/facebookresearch/audiocraft.