VampNet : Génération musicale par modélisation de tokens acoustiques masqués
VampNet: Music Generation via Masked Acoustic Token Modeling
July 10, 2023
Auteurs: Hugo Flores Garcia, Prem Seetharaman, Rithesh Kumar, Bryan Pardo
cs.AI
Résumé
Nous présentons VampNet, une approche de modélisation de tokens acoustiques masqués pour la synthèse, la compression, l'inpainting et la variation musicale. Nous utilisons un calendrier de masquage variable pendant l'entraînement, ce qui nous permet d'échantillonner de la musique cohérente à partir du modèle en appliquant diverses approches de masquage (appelées prompts) lors de l'inférence. VampNet est non-autorégressif, s'appuyant sur une architecture transformer bidirectionnelle qui prend en compte tous les tokens en une seule passe avant. Avec seulement 36 passes d'échantillonnage, VampNet peut générer des formes d'ondes musicales de haute fidélité et cohérentes. Nous montrons qu'en utilisant différents prompts avec VampNet, nous pouvons l'appliquer à des tâches telles que la compression musicale, l'inpainting, l'outpainting, la continuation et le bouclage avec variation (vamping). Correctement prompté, VampNet est capable de maintenir le style, le genre, l'instrumentation et d'autres aspects de haut niveau de la musique. Cette capacité flexible de prompting fait de VampNet un outil puissant de co-création musicale. Le code et des échantillons audio sont disponibles en ligne.
English
We introduce VampNet, a masked acoustic token modeling approach to music
synthesis, compression, inpainting, and variation. We use a variable masking
schedule during training which allows us to sample coherent music from the
model by applying a variety of masking approaches (called prompts) during
inference. VampNet is non-autoregressive, leveraging a bidirectional
transformer architecture that attends to all tokens in a forward pass. With
just 36 sampling passes, VampNet can generate coherent high-fidelity musical
waveforms. We show that by prompting VampNet in various ways, we can apply it
to tasks like music compression, inpainting, outpainting, continuation, and
looping with variation (vamping). Appropriately prompted, VampNet is capable of
maintaining style, genre, instrumentation, and other high-level aspects of the
music. This flexible prompting capability makes VampNet a powerful music
co-creation tool. Code and audio samples are available online.