ChatPaper.aiChatPaper

Einfache und steuerbare Musikerzeugung

Simple and Controllable Music Generation

June 8, 2023
Autoren: Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi, Alexandre Défossez
cs.AI

Zusammenfassung

Wir widmen uns der Aufgabe der bedingten Musikerzeugung. Wir stellen MusicGen vor, ein einzelnes Sprachmodell (Language Model, LM), das über mehrere Ströme komprimierter diskreter Musikrepräsentationen, d.h. Tokens, operiert. Im Gegensatz zu früheren Arbeiten besteht MusicGen aus einem einstufigen Transformer-LM zusammen mit effizienten Token-Interleaving-Mustern, wodurch die Notwendigkeit entfällt, mehrere Modelle kaskadiert einzusetzen, z.B. hierarchisch oder durch Upsampling. Mit diesem Ansatz zeigen wir, wie MusicGen hochwertige Samples erzeugen kann, während es auf textuelle Beschreibungen oder melodische Merkmale konditioniert ist, was eine bessere Kontrolle über das generierte Ergebnis ermöglicht. Wir führen eine umfangreiche empirische Evaluation durch, die sowohl automatische als auch menschliche Studien berücksichtigt, und zeigen, dass der vorgeschlagene Ansatz den bewerteten Baselines in einem Standard-Text-zu-Musik-Benchmark überlegen ist. Durch Ablationsstudien beleuchten wir die Bedeutung jeder der Komponenten, aus denen MusicGen besteht. Musikbeispiele, Code und Modelle sind verfügbar unter https://github.com/facebookresearch/audiocraft.
English
We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft.
PDF15725December 15, 2024