敵対的ポストトレーニングを用いた高速テキスト音声生成
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
著者: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
要旨
テキストからオーディオを生成するシステムは、性能が向上しているものの、推論時に時間がかかるため、多くの創造的なアプリケーションにおいてその遅延が実用的でない状況となっている。本研究では、蒸留に基づかない初の拡散/フローモデル向け敵対的加速アルゴリズムであるAdversarial Relativistic-Contrastive (ARC) ポストトレーニングを提案する。従来の敵対的ポストトレーニング手法は、高コストな蒸留手法との比較において苦戦してきたが、ARCポストトレーニングは、(1) 最近の相対論的敵対的定式化を拡散/フローポストトレーニングに拡張し、(2) プロンプトの遵守を促進するための新たなコントラスティブ識別器目的関数と組み合わせるというシンプルな手順である。ARCポストトレーニングをStable Audio Open向けの最適化と組み合わせ、H100上で約12秒の44.1kHzステレオオーディオを約75ミリ秒で生成し、モバイルエッジデバイス上で約7秒で生成可能なモデルを構築した。これは、我々の知る限り最速のテキストからオーディオを生成するモデルである。
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.Summary
AI-Generated Summary