Подача! Сжатие шагов и слоев для ускорения генерации музыки
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
Авторы: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
Аннотация
Несмотря на прогресс в методах преобразования текста в музыку на основе диффузии (TTM), эффективное и качественное создание остается вызовом. Мы представляем Presto!, подход к ускорению вывода для трансформеров на основе диффузии на основе нотации путем сокращения как количества шагов выборки, так и стоимости на шаг. Для сокращения шагов мы разрабатываем новый метод дистилляции сопоставления распределения на основе нотации (DMD) для семейства моделей диффузии EDM, первый метод дистилляции на основе GAN для TTM. Для сокращения стоимости на шаг мы разрабатываем простое, но мощное улучшение недавнего метода дистилляции слоя, которое улучшает обучение путем лучшего сохранения скрытой дисперсии состояния. Наконец, мы объединяем наши методы дистилляции шага и слоя вместе для двухстороннего подхода. Мы оцениваем наши методы дистилляции шага и слоя независимо и показываем, что каждый обеспечивает лучшую в своем классе производительность. Наш объединенный метод дистилляции может генерировать высококачественные результаты с улучшенным разнообразием, ускоряя нашу базовую модель в 10-18 раз (задержка 230/435 мс для 32-секундного моно/стерео 44,1 кГц, в 15 раз быстрее, чем сопоставимое SOTA) - самый быстрый высококачественный TTM на нашем уровне знаний. Примеры звука можно найти на https://presto-music.github.io/web/.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary