SoundWeaver: Семантическая предварительная инициализация для обслуживания диффузионных моделей преобразования текста в аудио

Аннотация

Модели диффузии для генерации аудио по тексту создают аудио высокой точности, но требуют десятков вычислений функции (NFE), что приводит к задержкам в несколько секунд и ограниченной пропускной способности. Мы представляем SoundWeaver — первую бестренировочную, модельно-агностическую систему обслуживания, которая ускоряет текстово-аудиальную диффузию за счет "теплого старта" от семантически схожего кэшированного аудио. SoundWeaver включает три компонента: Селектор ссылок, который извлекает и временно выравнивает кэшированные кандидаты через семантические и длительностные механизмы; Скип-гейт, который динамически определяет процент пропускаемых NFE; и легковесный Менеджер кэша, который поддерживает полезность кэша за счет учитывающего качество вытеснения и уточнения. На реальных аудиотреках SoundWeaver достигает снижения задержки в 1,8–3,0 раза при размере кэша всего около 1 тыс. записей, сохраняя или улучшая перцептивное качество.

English

Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.

SoundWeaver: Семантическая предварительная инициализация для обслуживания диффузионных моделей преобразования текста в аудио

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Аннотация

Support