ChatPaper.aiChatPaper

적대적 사후 학습을 통한 고속 텍스트-오디오 생성

Fast Text-to-Audio Generation with Adversarial Post-Training

May 13, 2025
저자: Zachary Novack, Zach Evans, Zack Zukowski, Josiah Taylor, CJ Carr, Julian Parker, Adnan Al-Sinan, Gian Marco Iodice, Julian McAuley, Taylor Berg-Kirkpatrick, Jordi Pons
cs.AI

초록

텍스트-투-오디오 시스템은 점점 더 성능이 향상되고 있지만, 추론 시간이 느려 많은 창의적인 응용 프로그램에서 실용적이지 못한 지연 시간을 보입니다. 우리는 Adversarial Relativistic-Contrastive (ARC) 사후 훈련을 제안합니다. 이는 증류(distillation)에 기반하지 않은 디퓨전/플로우 모델을 위한 첫 번째 적대적 가속 알고리즘입니다. 기존의 적대적 사후 훈련 방법들은 비용이 많이 드는 증류 기반 방법들과 비교할 때 어려움을 겪었지만, ARC 사후 훈련은 (1) 최근의 상대론적 적대적 공식을 디퓨전/플로우 사후 훈련에 확장하고, (2) 더 나은 프롬프트 준수를 장려하기 위해 새로운 대조적 판별자 목표를 결합하는 간단한 절차입니다. 우리는 ARC 사후 훈련을 Stable Audio Open에 대한 여러 최적화와 결합하여 H100에서 약 75ms, 모바일 엣지 디바이스에서 약 7초 만에 44.1kHz 스테레오 오디오를 약 12초 동안 생성할 수 있는 모델을 구축했습니다. 이는 우리가 아는 한 가장 빠른 텍스트-투-오디오 모델입니다.
English
Text-to-audio systems, while increasingly performant, are slow at inference time, thus making their latency unpractical for many creative applications. We present Adversarial Relativistic-Contrastive (ARC) post-training, the first adversarial acceleration algorithm for diffusion/flow models not based on distillation. While past adversarial post-training methods have struggled to compare against their expensive distillation counterparts, ARC post-training is a simple procedure that (1) extends a recent relativistic adversarial formulation to diffusion/flow post-training and (2) combines it with a novel contrastive discriminator objective to encourage better prompt adherence. We pair ARC post-training with a number optimizations to Stable Audio Open and build a model capable of generating approx12s of 44.1kHz stereo audio in approx75ms on an H100, and approx7s on a mobile edge-device, the fastest text-to-audio model to our knowledge.

Summary

AI-Generated Summary

PDF132May 14, 2025