Schnelle Text-zu-Audio-Generierung mit adversariellem Nach-Training
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Autoren: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Zusammenfassung
Text-to-Audio-Systeme, obwohl zunehmend leistungsfähig, sind bei der Inferenz langsam, was ihre Latenz für viele kreative Anwendungen unpraktisch macht. Wir stellen Adversarial Relativistic-Contrastive (ARC) Post-Training vor, den ersten adversariellen Beschleunigungsalgorithmus für Diffusions-/Flussmodelle, der nicht auf Destillation basiert. Während frühere adversarielle Post-Training-Methoden Schwierigkeiten hatten, sich mit ihren teuren Destillations-Gegenstücken zu messen, ist ARC Post-Training ein einfaches Verfahren, das (1) eine kürzlich entwickelte relativistische adversarielle Formulierung auf das Post-Training von Diffusions-/Flussmodellen erweitert und (2) es mit einem neuartigen kontrastiven Diskriminatorziel kombiniert, um eine bessere Prompt-Einhaltung zu fördern. Wir kombinieren ARC Post-Training mit einer Reihe von Optimierungen für Stable Audio Open und entwickeln ein Modell, das in der Lage ist, ca. 12 Sekunden 44,1-kHz-Stereo-Audio in ca. 75 ms auf einer H100 und ca. 7 Sekunden auf einem mobilen Edge-Gerät zu erzeugen – das schnellste Text-to-Audio-Modell, das uns bekannt ist.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.Summary
AI-Generated Summary