프레스토! 음악 생성 가속화를 위한 단계와 레이어 압축
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
저자: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
초록
확산 기반 텍스트-음악 (TTM) 방법의 발전에도 불구하고, 효율적이고 고품질의 생성은 여전히 어려운 과제입니다. 본 연구에서는 스텝 수와 스텝 당 비용을 감소시킴으로써 스코어 기반 확산 트랜스포머의 추론 가속화를 위한 프레스토!(Presto!)를 소개합니다. 스텝을 줄이기 위해, EDM 계열의 확산 모델을 위한 새로운 스코어 기반 분포 매칭 디스틸레이션 (DMD) 방법을 개발하였으며, 이는 TTM을 위한 최초의 GAN 기반 디스틸레이션 방법입니다. 스텝 당 비용을 줄이기 위해, 최근 레이어 디스틸레이션 방법에 간단하지만 강력한 개선을 도입하여, 숨겨진 상태 분산을 더 잘 보존함으로써 학습을 개선하였습니다. 마지막으로, 스텝 및 레이어 디스틸레이션 방법을 결합하여 이중적인 접근법을 제시합니다. 우리는 스텝 및 레이어 디스틸레이션 방법을 각각 독립적으로 평가하고, 각각이 최고 수준의 성능을 발휘함을 보여줍니다. 저희의 결합된 디스틸레이션 방법은 향상된 다양성을 갖는 고품질 출력물을 생성할 수 있으며, 베이스 모델을 10-18배 가속화할 수 있습니다 (32초 단일/스테레오 44.1kHz에 대해 230/435ms의 지연 시간, 비교 가능한 SOTA보다 15배 빠름) -- 저희가 알기로는 가장 빠른 고품질 TTM입니다. 소리 예시는 https://presto-music.github.io/web/에서 확인할 수 있습니다.
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.