SoundWeaver: Семантическая предварительная инициализация для обслуживания диффузионных моделей преобразования текста в аудио
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving
March 9, 2026
Авторы: Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai
cs.AI
Аннотация
Модели диффузии для генерации аудио по тексту создают аудио высокой точности, но требуют десятков вычислений функции (NFE), что приводит к задержкам в несколько секунд и ограниченной пропускной способности. Мы представляем SoundWeaver — первую бестренировочную, модельно-агностическую систему обслуживания, которая ускоряет текстово-аудиальную диффузию за счет "теплого старта" от семантически схожего кэшированного аудио. SoundWeaver включает три компонента: Селектор ссылок, который извлекает и временно выравнивает кэшированные кандидаты через семантические и длительностные механизмы; Скип-гейт, который динамически определяет процент пропускаемых NFE; и легковесный Менеджер кэша, который поддерживает полезность кэша за счет учитывающего качество вытеснения и уточнения. На реальных аудиотреках SoundWeaver достигает снижения задержки в 1,8–3,0 раза при размере кэша всего около 1 тыс. записей, сохраняя или улучшая перцептивное качество.
English
Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.