Presto! Destillationschritte und -schichten zur Beschleunigung der Musikgenerierung
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Autoren: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Zusammenfassung
Trotz Fortschritten bei diffusionsbasierten Text-zu-Musik (TTM) Methoden bleibt die effiziente, hochwertige Generierung eine Herausforderung. Wir stellen Presto! vor, einen Ansatz zur Beschleunigung der Inferenz für scorebasierte Diffusionstransformatoren durch Reduzierung sowohl der Abtastschritte als auch der Kosten pro Schritt. Um die Schritte zu reduzieren, entwickeln wir eine neue scorebasierte Verteilungsanpassungsdestillationsmethode (DMD) für die EDM-Familie von Diffusionsmodellen, die erste GAN-basierte Destillationsmethode für TTM. Zur Reduzierung der Kosten pro Schritt entwickeln wir eine einfache, aber leistungsstarke Verbesserung einer kürzlich vorgestellten Schichtdestillationsmethode, die das Lernen durch eine bessere Erhaltung der verborgenen Zustandsvarianz verbessert. Schließlich kombinieren wir unsere Schritt- und Schichtdestillationsmethoden für einen zweigleisigen Ansatz. Wir bewerten unsere Schritt- und Schichtdestillationsmethoden unabhängig voneinander und zeigen, dass jede eine erstklassige Leistung erbringt. Unsere kombinierte Destillationsmethode kann hochwertige Ausgaben mit verbesserter Vielfalt generieren und beschleunigt unser Basismodell um das 10- bis 18-fache (230/435ms Latenz für 32 Sekunden Mono/Stereo 44,1kHz, 15-mal schneller als vergleichbare SOTA) - die schnellste hochwertige TTM, die uns bekannt ist. Klangbeispiele finden Sie unter https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary