ChatPaper.aiChatPaper

VampNet: Generazione Musicale tramite Modellazione di Token Acustici Maschera

VampNet: Music Generation via Masked Acoustic Token Modeling

July 10, 2023
Autori: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI

Abstract

Presentiamo VampNet, un approccio di modellazione di token acustici mascherati per la sintesi, compressione, inpainting e variazione musicale. Utilizziamo una pianificazione di mascheramento variabile durante l'addestramento che ci consente di campionare musica coerente dal modello applicando diverse strategie di mascheramento (denominate prompt) durante l'inferenza. VampNet è non autoregressivo, sfruttando un'architettura transformer bidirezionale che considera tutti i token in un singolo passaggio in avanti. Con soli 36 passaggi di campionamento, VampNet è in grado di generare forme d'onda musicali ad alta fedeltà e coerenti. Dimostriamo che, utilizzando prompt diversi, VampNet può essere applicato a compiti come la compressione musicale, l'inpainting, l'outpainting, la continuazione e il looping con variazione (vamping). Se opportunamente sollecitato, VampNet è capace di mantenere stile, genere, strumentazione e altri aspetti di alto livello della musica. Questa flessibilità nel prompting rende VampNet uno strumento potente per la co-creazione musicale. Codice e campioni audio sono disponibili online.
English
We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
PDF212December 15, 2024