ChatPaper.aiChatPaper

VampNet: Musikerzeugung durch Maskierte Akustische Token-Modellierung

VampNet: Music Generation via Masked Acoustic Token Modeling

July 10, 2023
Autoren: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI

Zusammenfassung

Wir stellen VampNet vor, einen Ansatz zur maskierten akustischen Token-Modellierung für Musik-Synthese, Kompression, Inpainting und Variation. Während des Trainings verwenden wir einen variablen Maskierungsplan, der es uns ermöglicht, kohärente Musik aus dem Modell zu generieren, indem wir während der Inferenz verschiedene Maskierungsansätze (sogenannte Prompts) anwenden. VampNet ist nicht-autoregressiv und nutzt eine bidirektionale Transformer-Architektur, die in einem Vorwärtsdurchlauf alle Token berücksichtigt. Mit nur 36 Sampling-Durchläufen kann VampNet kohärente, hochwertige Musik-Waveformen erzeugen. Wir zeigen, dass VampNet durch verschiedene Prompts auf Aufgaben wie Musik-Kompression, Inpainting, Outpainting, Fortsetzung und Variation (Vamping) angewendet werden kann. Bei geeigneter Prompting ist VampNet in der Lage, Stil, Genre, Instrumentierung und andere hochrangige Aspekte der Musik beizubehalten. Diese flexible Prompting-Fähigkeit macht VampNet zu einem leistungsstarken Werkzeug für die Musik-Ko-Kreation. Code und Audio-Beispiele sind online verfügbar.
English
We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
PDF212December 15, 2024