Presto! Stappen en Lagen voor het Versnellen van Muziekgeneratie
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Auteurs: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Samenvatting
Ondanks de vooruitgang in diffusie-gebaseerde tekst-naar-muziek (TTM) methoden, blijft efficiënte, hoogwaardige generatie een uitdaging. We introduceren Presto!, een benadering voor versnelling van inferentie voor op score gebaseerde diffusie transformers door zowel het aantal bemonsteringsstappen als de kosten per stap te verminderen. Om het aantal stappen te verminderen, ontwikkelen we een nieuwe op score gebaseerde distributie-matching distillatie (DMD) methode voor de EDM-familie van diffusiemodellen, de eerste op GAN gebaseerde distillatiemethode voor TTM. Om de kosten per stap te verlagen, ontwikkelen we een eenvoudige, maar krachtige verbetering van een recente laag-distillatiemethode die het leren verbetert door een betere conservering van de verborgen toestandsvariantie. Ten slotte combineren we onze stap- en laag-distillatiemethoden voor een tweeledige benadering. We evalueren onze stap- en laag-distillatiemethoden onafhankelijk en tonen aan dat elk de beste prestaties in zijn klasse oplevert. Onze gecombineerde distillatiemethode kan hoogwaardige uitvoer genereren met verbeterde diversiteit, waardoor ons basismodel 10-18x sneller wordt (230/435 ms latentie voor 32 seconden mono/stereo 44,1 kHz, 15x sneller dan vergelijkbare SOTA) - de snelste hoogwaardige TTM naar ons weten. Geluidsvoorbeelden zijn te vinden op https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary