SoundWeaver: Inicialização Semântica para Serviço de Difusão de Texto para Áudio

Resumo

Os modelos de difusão texto-áudio produzem áudio de alta fidelidade, mas exigem dezenas de avaliações de função (NFEs), incorrendo em latência de múltiplos segundos e taxa de transferência limitada. Apresentamos o SoundWeaver, o primeiro sistema de serviço livre de treinamento e agnóstico a modelos que acelera a difusão texto-áudio através de um *warm-start* a partir de áudio em cache semanticamente similar. O SoundWeaver introduz três componentes: um Seletor de Referência que recupera e alinha temporalmente candidatos em cache via portão semântico e com consciência de duração; um Portão de Salto que determina dinamicamente a percentagem de NFEs a saltar; e um Gerenciador de Cache leve que mantém a utilidade do cache através de evicção e refinamento conscientes da qualidade. Em traços de áudio do mundo real, o SoundWeaver alcança uma redução de latência de 1,8 a 3,0 vezes com um cache de apenas ~1K entradas, preservando ou melhorando a qualidade perceptual.

English

Text-to-audio diffusion models produce high-fidelity audio but require tens of function evaluations (NFEs), incurring multi-second latency and limited throughput. We present SoundWeaver, the first training-free, model-agnostic serving system that accelerates text-to-audio diffusion by warm-starting from semantically similar cached audio. SoundWeaver introduces three components: a Reference Selector that retrieves and temporally aligns cached candidates via semantic and duration-aware gating; a Skip Gater that dynamically determines the percentage of NFEs to skip; and a lightweight Cache Manager that maintains cache utility through quality-aware eviction and refinement. On real-world audio traces, SoundWeaver achieves 1.8--3.0 times latency reduction with a cache of only {sim}1K entries while preserving or improving perceptual quality.