Geração Rápida de Texto para Áudio com Pós-Treinamento Adversarial
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Autores: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Resumo
Sistemas de texto para áudio, embora cada vez mais eficientes, são lentos no tempo de inferência, tornando sua latência impraticável para muitas aplicações criativas. Apresentamos o pós-treinamento Adversarial Relativistic-Contrastive (ARC), o primeiro algoritmo de aceleração adversarial para modelos de difusão/fluxo que não se baseia em destilação. Enquanto métodos anteriores de pós-treinamento adversarial tiveram dificuldade em competir com suas contrapartes caras baseadas em destilação, o pós-treinamento ARC é um procedimento simples que (1) estende uma formulação adversarial relativística recente para o pós-treinamento de modelos de difusão/fluxo e (2) combina isso com um novo objetivo discriminador contrastivo para incentivar uma melhor aderência ao prompt. Emparelhamos o pós-treinamento ARC com várias otimizações ao Stable Audio Open e construímos um modelo capaz de gerar aproximadamente 12 segundos de áudio estéreo a 44,1 kHz em aproximadamente 75 ms em um H100, e aproximadamente 7 segundos em um dispositivo móvel de borda, o modelo de texto para áudio mais rápido que conhecemos.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.