VampNet: Muziekgeneratie via Gemaskeerde Akoestische Tokenmodellering
VampNet: Music Generation via Masked Acoustic Token Modeling
July 10, 2023
Auteurs: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI
Samenvatting
We introduceren VampNet, een benadering van gemaskeerde akoestische tokenmodellering voor muzieksynthese, compressie, inpainting en variatie. We gebruiken een variabel maskeringsschema tijdens de training, waardoor we coherente muziek uit het model kunnen genereren door verschillende maskeringsbenaderingen (genaamd prompts) toe te passen tijdens de inferentie. VampNet is niet-autoregressief en maakt gebruik van een bidirectionele transformerarchitectuur die aandacht besteedt aan alle tokens in één voorwaartse doorloop. Met slechts 36 bemonsteringsdoorlopen kan VampNet coherente, hoogwaardige muzikale golfvormen genereren. We laten zien dat door VampNet op verschillende manieren te prompten, we het kunnen toepassen op taken zoals muziekcompressie, inpainting, outpainting, voortzetting en looping met variatie (vamping). Wanneer het op de juiste manier wordt geprompt, is VampNet in staat om stijl, genre, instrumentatie en andere hoogwaardige aspecten van de muziek te behouden. Deze flexibele promptmogelijkheid maakt VampNet tot een krachtig hulpmiddel voor muzikale co-creatie. Code en audiovoorbeelden zijn online beschikbaar.
English
We introduce VampNet, a masked acoustic token modeling approach to music
synthesis, compression, inpainting, and variation. We use a variable masking
schedule during training which allows us to sample coherent music from the
model by applying a variety of masking approaches (called prompts) during
inference. VampNet is non-autoregressive, leveraging a bidirectional
transformer architecture that attends to all tokens in a forward pass. With
just 36 sampling passes, VampNet can generate coherent high-fidelity musical
waveforms. We show that by prompting VampNet in various ways, we can apply it
to tasks like music compression, inpainting, outpainting, continuation, and
looping with variation (vamping). Appropriately prompted, VampNet is capable of
maintaining style, genre, instrumentation, and other high-level aspects of the
music. This flexible prompting capability makes VampNet a powerful music
co-creation tool. Code and audio samples are available online.