Presto ! Distillation des étapes et des couches pour accélérer la génération de musique
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Auteurs: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Résumé
Malgré les avancées dans les méthodes de conversion texte-en-musique (TTM) basées sur la diffusion, la génération efficace et de haute qualité reste un défi. Nous présentons Presto!, une approche d'accélération de l'inférence pour les transformateurs de diffusion basés sur les partitions en réduisant à la fois les étapes d'échantillonnage et le coût par étape. Pour réduire les étapes, nous développons une nouvelle méthode de distillation de correspondance de distribution basée sur les partitions (DMD) pour la famille de modèles de diffusion EDM, la première méthode de distillation basée sur GAN pour le TTM. Pour réduire le coût par étape, nous développons une amélioration simple mais puissante d'une méthode récente de distillation de couche qui améliore l'apprentissage en préservant mieux la variance de l'état caché. Enfin, nous combinons nos méthodes de distillation par étape et par couche pour une approche à double facette. Nous évaluons nos méthodes de distillation par étape et par couche de manière indépendante et montrons que chacune produit des performances de premier ordre. Notre méthode de distillation combinée peut générer des sorties de haute qualité avec une diversité améliorée, accélérant notre modèle de base de 10 à 18 fois (latence de 230/435 ms pour 32 secondes mono/stéréo 44,1 kHz, 15 fois plus rapide que les SOTA comparables) - le TTM de haute qualité le plus rapide à notre connaissance. Des exemples sonores sont disponibles sur https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary