Einfache und steuerbare Musikerzeugung
Simple and Controllable Music Generation
June 8, 2023
Autoren: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI
Zusammenfassung
Wir widmen uns der Aufgabe der bedingten Musikerzeugung. Wir stellen MusicGen vor, ein einzelnes Sprachmodell (Language Model, LM), das über mehrere Ströme komprimierter diskreter Musikrepräsentationen, d.h. Tokens, operiert. Im Gegensatz zu früheren Arbeiten besteht MusicGen aus einem einstufigen Transformer-LM zusammen mit effizienten Token-Interleaving-Mustern, wodurch die Notwendigkeit entfällt, mehrere Modelle kaskadiert einzusetzen, z.B. hierarchisch oder durch Upsampling. Mit diesem Ansatz zeigen wir, wie MusicGen hochwertige Samples erzeugen kann, während es auf textuelle Beschreibungen oder melodische Merkmale konditioniert ist, was eine bessere Kontrolle über das generierte Ergebnis ermöglicht. Wir führen eine umfangreiche empirische Evaluation durch, die sowohl automatische als auch menschliche Studien berücksichtigt, und zeigen, dass der vorgeschlagene Ansatz den bewerteten Baselines in einem Standard-Text-zu-Musik-Benchmark überlegen ist. Durch Ablationsstudien beleuchten wir die Bedeutung jeder der Komponenten, aus denen MusicGen besteht. Musikbeispiele, Code und Modelle sind verfügbar unter https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a
single Language Model (LM) that operates over several streams of compressed
discrete music representation, i.e., tokens. Unlike prior work, MusicGen is
comprised of a single-stage transformer LM together with efficient token
interleaving patterns, which eliminates the need for cascading several models,
e.g., hierarchically or upsampling. Following this approach, we demonstrate how
MusicGen can generate high-quality samples, while being conditioned on textual
description or melodic features, allowing better controls over the generated
output. We conduct extensive empirical evaluation, considering both automatic
and human studies, showing the proposed approach is superior to the evaluated
baselines on a standard text-to-music benchmark. Through ablation studies, we
shed light over the importance of each of the components comprising MusicGen.
Music samples, code, and models are available at
https://github.com/facebookresearch/audiocraft.