ChatPaper.aiChatPaper

Sintesi! Passaggi e Strati per Accelerare la Generazione Musicale

Presto! Distilling Steps and Layers for Accelerating Music Generation

October 7, 2024
Autori: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI

Abstract

Nonostante i progressi nei metodi di trasformazione testo-musica (TTM) basati sulla diffusione, la generazione efficiente e di alta qualità rimane una sfida. Presentiamo Presto!, un approccio all'accelerazione dell'inferenza per i trasformatori di diffusione basati sul punteggio riducendo sia i passaggi di campionamento che il costo per passaggio. Per ridurre i passaggi, sviluppiamo un nuovo metodo di distillazione del matching di distribuzione basato sul punteggio (DMD) per la famiglia di modelli di diffusione EDM, il primo metodo di distillazione basato su GAN per TTM. Per ridurre il costo per passaggio, sviluppiamo un miglioramento semplice ma potente a un recente metodo di distillazione a livello che migliora l'apprendimento preservando meglio la varianza dello stato nascosto. Infine, combiniamo i nostri metodi di distillazione a passaggi e a livello per un approccio a doppia faccia. Valutiamo i nostri metodi di distillazione a passaggi e a livello indipendentemente e mostriamo che ciascuno produce prestazioni di prima classe. Il nostro metodo di distillazione combinato può generare output di alta qualità con una maggiore diversità, accelerando il nostro modello base di 10-18 volte (latenza di 230/435 ms per 32 secondi mono/stereo a 44,1 kHz, 15 volte più veloce rispetto a SOTA comparabili) - il TTM di alta qualità più veloce di cui siamo a conoscenza. Esempi audio sono disponibili su https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient, high-quality generation remains a challenge. We introduce Presto!, an approach to inference acceleration for score-based diffusion transformers via reducing both sampling steps and cost per step. To reduce steps, we develop a new score-based distribution matching distillation (DMD) method for the EDM-family of diffusion models, the first GAN-based distillation method for TTM. To reduce the cost per step, we develop a simple, but powerful improvement to a recent layer distillation method that improves learning via better preserving hidden state variance. Finally, we combine our step and layer distillation methods together for a dual-faceted approach. We evaluate our step and layer distillation methods independently and show each yield best-in-class performance. Our combined distillation method can generate high-quality outputs with improved diversity, accelerating our base model by 10-18x (230/435ms latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) -- the fastest high-quality TTM to our knowledge. Sound examples can be found at https://presto-music.github.io/web/.
PDF184November 16, 2024