ChatPaper.aiChatPaper

VampNet: Генерация музыки с помощью моделирования замаскированных акустических токенов

VampNet: Music Generation via Masked Acoustic Token Modeling

July 10, 2023
Авторы: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI

Аннотация

Мы представляем VampNet — подход к синтезу, сжатию, восстановлению и вариациям музыки на основе моделирования маскированных акустических токенов. В процессе обучения используется переменный график маскирования, что позволяет генерировать согласованную музыку, применяя различные стратегии маскирования (называемые промптами) на этапе вывода. VampNet является неавторегрессивной моделью, использующей двунаправленную архитектуру трансформера, которая обрабатывает все токены за один прямой проход. Всего за 36 проходов VampNet способен генерировать согласованные высококачественные музыкальные волновые формы. Мы демонстрируем, что, используя различные промпты, VampNet можно применять для задач сжатия музыки, восстановления пропущенных фрагментов, расширения, продолжения и создания вариаций (vamping). При правильном промптировании VampNet способен сохранять стиль, жанр, инструментовку и другие высокоуровневые аспекты музыки. Эта гибкость в промптировании делает VampNet мощным инструментом для совместного создания музыки. Код и аудиообразцы доступны онлайн.
English
We introduce VampNet, a masked acoustic token modeling approach to music synthesis, compression, inpainting, and variation. We use a variable masking schedule during training which allows us to sample coherent music from the model by applying a variety of masking approaches (called prompts) during inference. VampNet is non-autoregressive, leveraging a bidirectional transformer architecture that attends to all tokens in a forward pass. With just 36 sampling passes, VampNet can generate coherent high-fidelity musical waveforms. We show that by prompting VampNet in various ways, we can apply it to tasks like music compression, inpainting, outpainting, continuation, and looping with variation (vamping). Appropriately prompted, VampNet is capable of maintaining style, genre, instrumentation, and other high-level aspects of the music. This flexible prompting capability makes VampNet a powerful music co-creation tool. Code and audio samples are available online.
PDF212December 15, 2024