Presto! Destilação de Etapas e Camadas para Acelerar a Geração de Música
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Autores: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Resumo
Apesar dos avanços nos métodos de texto para música (TTM) baseados em difusão, a geração eficiente e de alta qualidade ainda é um desafio. Apresentamos o Presto!, uma abordagem para aceleração de inferência para transformadores de difusão baseados em partituras, reduzindo tanto o número de passos de amostragem quanto o custo por passo. Para reduzir os passos, desenvolvemos um novo método de destilação de correspondência de distribuição baseada em partituras (DMD) para a família de modelos de difusão EDM, o primeiro método de destilação baseado em GAN para TTM. Para reduzir o custo por passo, desenvolvemos uma melhoria simples, porém poderosa, em um recente método de destilação de camada que aprimora a aprendizagem ao preservar melhor a variância do estado oculto. Por fim, combinamos nossos métodos de destilação de passo e camada para uma abordagem dupla. Avaliamos nossos métodos de destilação de passo e camada de forma independente e mostramos que cada um produz um desempenho de primeira classe. Nosso método de destilação combinado pode gerar saídas de alta qualidade com diversidade aprimorada, acelerando nosso modelo base em 10-18 vezes (latência de 230/435ms para 32 segundos mono/estéreo 44.1kHz, 15 vezes mais rápido do que o estado da arte comparável) - o TTM de alta qualidade mais rápido de que temos conhecimento. Exemplos sonoros podem ser encontrados em https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary