Быстрое преобразование текста в аудио с использованием адверсарного пост-обучения
Fast Text-to-Audio Generation with Adversarial Post-Training
May 13, 2025
Авторы: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI
Аннотация
Системы преобразования текста в аудио, несмотря на их растущую производительность, остаются медленными на этапе вывода, что делает их задержку неприемлемой для многих творческих приложений. Мы представляем метод постобработки Adversarial Relativistic-Contrastive (ARC) — первый алгоритм ускорения для диффузионных/потоковых моделей, основанный на состязательном обучении, а не на дистилляции. В то время как предыдущие методы состязательной постобработки не могли конкурировать с дорогостоящими аналогами на основе дистилляции, ARC постобработка представляет собой простую процедуру, которая (1) расширяет недавнюю релятивистскую состязательную формулировку для постобработки диффузионных/потоковых моделей и (2) сочетает её с новой контрастной функцией дискриминатора, чтобы улучшить соответствие текстовому запросу. Мы применяем ARC постобработку вместе с рядом оптимизаций к модели Stable Audio Open и создаём модель, способную генерировать примерно 12 секунд стереоаудио с частотой 44,1 кГц за примерно 75 мс на H100 и примерно 7 секунд на мобильном устройстве, что делает её самой быстрой моделью преобразования текста в аудио из известных на сегодняшний день.
English
Text-to-audio systems, while increasingly performant, are slow at inference
time, thus making their latency unpractical for many creative applications. We
present Adversarial Relativistic-Contrastive (ARC) post-training, the first
adversarial acceleration algorithm for diffusion/flow models not based on
distillation. While past adversarial post-training methods have struggled to
compare against their expensive distillation counterparts, ARC post-training is
a simple procedure that (1) extends a recent relativistic adversarial
formulation to diffusion/flow post-training and (2) combines it with a novel
contrastive discriminator objective to encourage better prompt adherence. We
pair ARC post-training with a number optimizations to Stable Audio Open and
build a model capable of generating approx12s of 44.1kHz stereo audio in
approx75ms on an H100, and approx7s on a mobile edge-device, the fastest
text-to-audio model to our knowledge.Summary
AI-Generated Summary