Generación Rápida de Texto a Audio con Post-Entrenamiento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Autores: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Resumen
Los sistemas de texto a audio, aunque cada vez más eficientes, son lentos en el tiempo de inferencia, lo que hace que su latencia sea poco práctica para muchas aplicaciones creativas. Presentamos el post-entrenamiento Adversarial Relativistic-Contrastive (ARC), el primer algoritmo de aceleración adversarial para modelos de difusión/flujo que no se basa en destilación. Mientras que los métodos anteriores de post-entrenamiento adversarial han tenido dificultades para competir con sus costosas contrapartes de destilación, el post-entrenamiento ARC es un procedimiento simple que (1) extiende una formulación adversarial relativista reciente al post-entrenamiento de difusión/flujo y (2) lo combina con un nuevo objetivo discriminador contrastivo para fomentar una mejor adherencia a las indicaciones. Acompañamos el post-entrenamiento ARC con una serie de optimizaciones a Stable Audio Open y construimos un modelo capaz de generar aproximadamente 12 segundos de audio estéreo a 44.1 kHz en aproximadamente 75 ms en una H100, y aproximadamente 7 segundos en un dispositivo móvil de borde, el modelo de texto a audio más rápido que conocemos.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.Summary
AI-Generated Summary