プレスト!音楽生成を加速するためのステップとレイヤーの蒸留
Presto! Distilling Steps and Layers for Accelerating Music Generation
October 7, 2024
著者: Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan
cs.AI
要旨
拡散ベースのテキストから音楽への変換(TTM)手法の進歩にもかかわらず、効率的で高品質な生成は依然として課題です。本研究では、スコアベースの拡散トランスフォーマーの推論を加速するPresto!を紹介します。このアプローチでは、サンプリングステップとステップごとのコストを削減することで、ステップ数を削減するために、EDMファミリーの拡散モデル向けの新しいスコアベースの分布マッチング蒸留(DMD)メソッドを開発しました。これは、TTM向けの最初のGANベースの蒸留メソッドです。ステップごとのコストを削減するために、最近のレイヤー蒸留メソッドの学習を改善するためのシンプルで強力な改良を開発しました。最後に、ステップとレイヤーの蒸留メソッドを組み合わせて、二面性のアプローチを採用しています。ステップとレイヤーの蒸留メソッドをそれぞれ独立して評価し、それぞれが最高クラスのパフォーマンスを発揮することを示しています。組み合わせた蒸留メソッドは、改善された多様性を持つ高品質な出力を生成し、32秒のモノ/ステレオ44.1kHzに対して230/435msの遅延(競合するSOTAより15倍速い)で基本モデルを10〜18倍加速します。これは、私たちの知る限りで最速の高品質TTMです。音声例はhttps://presto-music.github.io/web/で聴くことができます。
English
Despite advances in diffusion-based text-to-music (TTM) methods, efficient,
high-quality generation remains a challenge. We introduce Presto!, an approach
to inference acceleration for score-based diffusion transformers via reducing
both sampling steps and cost per step. To reduce steps, we develop a new
score-based distribution matching distillation (DMD) method for the EDM-family
of diffusion models, the first GAN-based distillation method for TTM. To reduce
the cost per step, we develop a simple, but powerful improvement to a recent
layer distillation method that improves learning via better preserving hidden
state variance. Finally, we combine our step and layer distillation methods
together for a dual-faceted approach. We evaluate our step and layer
distillation methods independently and show each yield best-in-class
performance. Our combined distillation method can generate high-quality outputs
with improved diversity, accelerating our base model by 10-18x (230/435ms
latency for 32 second mono/stereo 44.1kHz, 15x faster than comparable SOTA) --
the fastest high-quality TTM to our knowledge. Sound examples can be found at
https://presto-music.github.io/web/.Summary
AI-Generated Summary