¡Presto! Destilando Pasos y Capas para Acelerar la Generación de Música
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Autores: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Resumen
A pesar de los avances en los métodos de texto a música (TTM) basados en difusión, la generación eficiente y de alta calidad sigue siendo un desafío. Presentamos Presto!, un enfoque para acelerar la inferencia en transformadores de difusión basados en partituras mediante la reducción tanto de pasos de muestreo como del costo por paso. Para reducir los pasos, desarrollamos un nuevo método de destilación de coincidencia de distribución basado en partituras (DMD) para la familia de modelos de difusión EDM, el primer método de destilación basado en GAN para TTM. Para reducir el costo por paso, desarrollamos una mejora simple pero potente a un reciente método de destilación de capas que mejora el aprendizaje al preservar mejor la varianza del estado oculto. Finalmente, combinamos nuestros métodos de destilación de pasos y capas para un enfoque dual. Evaluamos nuestros métodos de destilación de pasos y capas de forma independiente y demostramos que cada uno produce un rendimiento de primera clase. Nuestro método de destilación combinado puede generar salidas de alta calidad con una diversidad mejorada, acelerando nuestro modelo base de 10 a 18 veces (latencia de 230/435 ms para 32 segundos mono/estéreo a 44.1 kHz, 15 veces más rápido que el estado del arte comparable) -- el TTM de alta calidad más rápido que conocemos. Ejemplos de sonido se pueden encontrar en https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary