ChatPaper.aiChatPaper

VampNet: Generación de música mediante modelado de tokens acústicos enmascarados

VampNet: Music Generation via Masked Acoustic Token Modeling

July 10, 2023
Autores: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI

Resumen

Presentamos VampNet, un enfoque de modelado de tokens acústicos enmascarados para la síntesis, compresión, restauración y variación de música. Utilizamos un esquema de enmascaramiento variable durante el entrenamiento que nos permite generar música coherente a partir del modelo aplicando diversos enfoques de enmascaramiento (llamados prompts) durante la inferencia. VampNet no es autoregresivo, aprovechando una arquitectura de transformador bidireccional que atiende a todos los tokens en un único paso hacia adelante. Con solo 36 pasos de muestreo, VampNet puede generar formas de onda musicales coherentes y de alta fidelidad. Demostramos que, al proporcionar diferentes prompts a VampNet, podemos aplicarlo a tareas como la compresión de música, restauración, extensión, continuación y creación de bucles con variación (vamping). Al ser adecuadamente prompteado, VampNet es capaz de mantener el estilo, género, instrumentación y otros aspectos de alto nivel de la música. Esta capacidad flexible de prompting convierte a VampNet en una poderosa herramienta de co-creación musical. El código y muestras de audio están disponibles en línea.
English
We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
PDF212December 15, 2024