StableToken: Un Tokenizzatore Semantico del Parlato Robusto al Rumore per SpeechLLM Resilienti
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
Autori: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
Abstract
I tokenizzatori semantici del parlato prevalenti, progettati per catturare il contenuto linguistico, si rivelano sorprendentemente fragili. Abbiamo osservato che non sono robusti a perturbazioni acustiche irrilevanti per il significato; anche ad alti rapporti segnale-rumore (SNR) dove il parlato è perfettamente intelligibile, le sequenze di token in output possono cambiare drasticamente, aumentando il carico di apprendimento per i modelli linguistici di grandi dimensioni (LLM) a valle. Questa instabilità deriva da due difetti: un'architettura di quantizzazione a percorso singolo fragile e un segnale di allenamento distante indifferente alla stabilità dei token intermedi. Per affrontare questo problema, introduciamo StableToken, un tokenizzatore che raggiunge la stabilità attraverso un meccanismo basato sul consenso. La sua architettura multi-ramo elabora l'audio in parallelo, e queste rappresentazioni vengono fuse tramite un potente meccanismo di voto bit a bit per formare una singola sequenza di token stabile. StableToken stabilisce un nuovo stato dell'arte nella stabilità dei token, riducendo drasticamente la Distanza di Modifica Unitaria (UED) in diverse condizioni di rumore. Questa stabilità fondamentale si traduce direttamente in benefici a valle, migliorando significativamente la robustezza dei SpeechLLM su una varietà di compiti.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.