VampNet: Generación de música mediante modelado de tokens acústicos enmascarados
VampNet: Music Generation via Masked Acoustic Token Modeling
July 10, 2023
Autores: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI
Resumen
Presentamos VampNet, un enfoque de modelado de tokens acústicos enmascarados para la síntesis, compresión, restauración y variación de música. Utilizamos un esquema de enmascaramiento variable durante el entrenamiento que nos permite generar música coherente a partir del modelo aplicando diversos enfoques de enmascaramiento (llamados prompts) durante la inferencia. VampNet no es autoregresivo, aprovechando una arquitectura de transformador bidireccional que atiende a todos los tokens en un único paso hacia adelante. Con solo 36 pasos de muestreo, VampNet puede generar formas de onda musicales coherentes y de alta fidelidad. Demostramos que, al proporcionar diferentes prompts a VampNet, podemos aplicarlo a tareas como la compresión de música, restauración, extensión, continuación y creación de bucles con variación (vamping). Al ser adecuadamente prompteado, VampNet es capaz de mantener el estilo, género, instrumentación y otros aspectos de alto nivel de la música. Esta capacidad flexible de prompting convierte a VampNet en una poderosa herramienta de co-creación musical. El código y muestras de audio están disponibles en línea.
English
We introduce VampNet, a masked acoustic token modeling approach to music
synthesis, compression, inpainting, and variation. We use a variable masking
schedule during training which allows us to sample coherent music from the
model by applying a variety of masking approaches (called prompts) during
inference. VampNet is non-autoregressive, leveraging a bidirectional
transformer architecture that attends to all tokens in a forward pass. With
just 36 sampling passes, VampNet can generate coherent high-fidelity musical
waveforms. We show that by prompting VampNet in various ways, we can apply it
to tasks like music compression, inpainting, outpainting, continuation, and
looping with variation (vamping). Appropriately prompted, VampNet is capable of
maintaining style, genre, instrumentation, and other high-level aspects of the
music. This flexible prompting capability makes VampNet a powerful music
co-creation tool. Code and audio samples are available online.