Generazione Rapida da Testo ad Audio con Post-Addestramento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Autori: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Abstract
I sistemi di testo-audio, sebbene sempre più performanti, sono lenti nel tempo di inferenza, rendendo la loro latenza poco pratica per molte applicazioni creative. Presentiamo l'ARC (Adversarial Relativistic-Contrastive) post-training, il primo algoritmo di accelerazione avversaria per modelli di diffusione/flusso non basato sulla distillazione. Mentre i precedenti metodi di post-training avversario hanno faticato a competere con le costose controparti basate sulla distillazione, l'ARC post-training è una procedura semplice che (1) estende una recente formulazione avversaria relativistica al post-training per modelli di diffusione/flusso e (2) la combina con un nuovo obiettivo discriminatorio contrastivo per favorire una migliore aderenza al prompt. Abbiamo abbinato l'ARC post-training a una serie di ottimizzazioni per Stable Audio Open e costruito un modello in grado di generare circa 12 secondi di audio stereo a 44,1 kHz in circa 75 ms su un H100 e circa 7 secondi su un dispositivo mobile edge, il più veloce modello testo-audio a nostra conoscenza.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.