SoundWeaver: 텍스트-오디오 확산 모델 서빙을 위한 의미론적 웜 스타팅
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
March 9, 2026
저자: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai
cs.AI
초록
텍스트-오디오 확산 모델은 고품질 오디오를 생성하지만 수십 회의 함수 평가를 필요로 하여 다중 초 지연 시간과 제한된 처리량이 발생합니다. 본 연구에서는 의미론적으로 유사한 캐시 오디오를 웜 스타트하여 텍스트-오디오 확산 가속화를 위한 최초의 학습 불필요, 모델 불가지론적 서빙 시스템인 SoundWeaver를 제안합니다. SoundWeaver는 세 가지 구성 요소를 도입합니다: 의미 및 길이 인식 게이팅을 통해 캐시 후보를 검색하고 시간적으로 정렬하는 레퍼런스 선택기, 생략할 함수 평가 비율을 동적으로 결정하는 스킵 게이터, 품질 인식 제거 및 정제를 통해 캐시 효용성을 유지하는 경량 캐시 관리자입니다. 실제 오디오 트레이스에서 SoundWeaver는 약 1,000개 항목의 캐시만으로도 지각 품질을 유지하거나 향상시키면서 1.8~3.0배의 지연 시간 감소를 달성했습니다.
English
Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.