StableToken: Un Tokenizador Semántico de Habla Robusto al Ruido para Modelos de Lenguaje de Habla Resilientes
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
Autores: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
Resumen
Los tokenizadores semánticos de habla predominantes, diseñados para capturar contenido lingüístico, son sorprendentemente frágiles. Descubrimos que no son robustos frente a perturbaciones acústicas irrelevantes para el significado; incluso en relaciones Señal-Ruido (SNR) altas, donde el habla es perfectamente inteligible, sus secuencias de tokens de salida pueden cambiar drásticamente, aumentando la carga de aprendizaje para los modelos de lenguaje grandes (LLM) posteriores. Esta inestabilidad se debe a dos fallas: una arquitectura de cuantización de ruta única frágil y una señal de entrenamiento distante indiferente a la estabilidad de los tokens intermedios. Para abordar esto, presentamos StableToken, un tokenizador que logra estabilidad mediante un mecanismo basado en consenso. Su arquitectura de múltiples ramas procesa el audio en paralelo, y estas representaciones se fusionan mediante un potente mecanismo de votación bit a bit para formar una única secuencia de tokens estable. StableToken establece un nuevo estado del arte en estabilidad de tokens, reduciendo drásticamente la Distancia de Edición de Unidades (UED) bajo diversas condiciones de ruido. Esta estabilidad fundamental se traduce directamente en beneficios posteriores, mejorando significativamente la robustez de los SpeechLLM en una variedad de tareas.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.