Snelle Tekst-naar-Audio Generatie met Adversariële Nabewerkingstraining
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Auteurs: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Samenvatting
Text-to-audio-systemen, hoewel steeds performanter, zijn traag tijdens inferentie, waardoor hun latentie onpraktisch is voor veel creatieve toepassingen. Wij presenteren Adversarial Relativistic-Contrastive (ARC) post-training, het eerste adversariële versnellingsalgoritme voor diffusie-/flow-modellen dat niet gebaseerd is op distillatie. Terwijl eerdere adversariële post-trainingsmethoden moeite hadden om zich te meten met hun dure distillatie-tegenhangers, is ARC post-training een eenvoudige procedure die (1) een recente relativistische adversariële formulering uitbreidt naar diffusie-/flow post-training en (2) deze combineert met een nieuw contrastief discriminator-doel om betere prompt-naleving te bevorderen. We combineren ARC post-training met een aantal optimalisaties voor Stable Audio Open en bouwen een model dat in staat is om ongeveer 12 seconden 44,1 kHz stereo-audio te genereren in ongeveer 75 ms op een H100, en ongeveer 7 seconden op een mobiel edge-apparaat, het snelste text-to-audio-model naar onze kennis.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.Summary
AI-Generated Summary