Быстрое преобразование текста в аудио с использованием адверсарного пост-обучения

Аннотация

Системы преобразования текста в аудио, несмотря на их растущую производительность, остаются медленными на этапе вывода, что делает их задержку неприемлемой для многих творческих приложений. Мы представляем метод постобработки Adversarial Relativistic-Contrastive (ARC) — первый алгоритм ускорения для диффузионных/потоковых моделей, основанный на состязательном обучении, а не на дистилляции. В то время как предыдущие методы состязательной постобработки не могли конкурировать с дорогостоящими аналогами на основе дистилляции, ARC постобработка представляет собой простую процедуру, которая (1) расширяет недавнюю релятивистскую состязательную формулировку для постобработки диффузионных/потоковых моделей и (2) сочетает её с новой контрастной функцией дискриминатора, чтобы улучшить соответствие текстовому запросу. Мы применяем ARC постобработку вместе с рядом оптимизаций к модели Stable Audio Open и создаём модель, способную генерировать примерно 12 секунд стереоаудио с частотой 44,1 кГц за примерно 75 мс на H100 и примерно 7 секунд на мобильном устройстве, что делает её самой быстрой моделью преобразования текста в аудио из известных на сегодняшний день.

English

Text-to-audio systems, while increasingly performant, are slow at inference time, thus making their latency unpractical for many creative applications. We present Adversarial Relativistic-Contrastive (ARC) post-training, the first adversarial acceleration algorithm for diffusion/flow models not based on distillation. While past adversarial post-training methods have struggled to compare against their expensive distillation counterparts, ARC post-training is a simple procedure that (1) extends a recent relativistic adversarial formulation to diffusion/flow post-training and (2) combines it with a novel contrastive discriminator objective to encourage better prompt adherence. We pair ARC post-training with a number optimizations to Stable Audio Open and build a model capable of generating approx12s of 44.1kHz stereo audio in approx75ms on an H100, and approx7s on a mobile edge-device, the fastest text-to-audio model to our knowledge.