ChatPaper.aiChatPaper

VampNet: Geração de Música por meio de Modelagem de Tokens Acústicos Mascarados

VampNet: Music Generation via Masked Acoustic Token Modeling

July 10, 2023
Autores: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI

Resumo

Apresentamos o VampNet, uma abordagem de modelagem de tokens acústicos mascarados para síntese, compressão, preenchimento e variação musical. Utilizamos um esquema de mascaramento variável durante o treinamento, o que nos permite amostrar música coerente do modelo aplicando diversas abordagens de mascaramento (chamadas de prompts) durante a inferência. O VampNet é não-autorregressivo, aproveitando uma arquitetura de transformer bidirecional que atende a todos os tokens em uma passagem direta. Com apenas 36 passagens de amostragem, o VampNet pode gerar formas de onda musicais de alta fidelidade e coerência. Demonstramos que, ao fornecer prompts de várias maneiras ao VampNet, podemos aplicá-lo a tarefas como compressão musical, preenchimento, extensão, continuação e looping com variação (vamping). Quando devidamente promptado, o VampNet é capaz de manter o estilo, gênero, instrumentação e outros aspectos de alto nível da música. Essa capacidade flexível de prompt torna o VampNet uma poderosa ferramenta de cocriação musical. Código e amostras de áudio estão disponíveis online.
English
We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
PDF212December 15, 2024