StableToken: Een Ruisbestendige Semantische Spraaktokenizer voor Veerkrachtige Spraak-LLM's
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
Auteurs: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
Samenvatting
Gangbare semantische spraaktokenizers, ontworpen om linguïstische inhoud vast te leggen, blijken verrassend kwetsbaar. We constateren dat ze niet robuust zijn tegen betekenisirrelevante akoestische verstoringen; zelfs bij hoge Signaal-Ruisverhoudingen (SNR's) waar spraak perfect verstaanbaar is, kunnen hun uitvoertokenreeksen drastisch veranderen, wat de leerlast voor downstream LLM's verhoogt. Deze instabiliteit komt voort uit twee tekortkomingen: een broze single-path kwantiseringsarchitectuur en een ver trainingssignaal dat onverschillig is voor de stabiliteit van tussenliggende tokens. Om dit aan te pakken, introduceren we StableToken, een tokenizer die stabiliteit bereikt via een consensusgestuurd mechanisme. De multi-branch architectuur verwerkt audio parallel, en deze representaties worden samengevoegd via een krachtig bit-wise stemmechanisme om een enkele, stabiele tokenreeks te vormen. StableToken vestigt een nieuwe state-of-the-art in tokenstabiliteit, waardoor de Unit Edit Distance (UED) onder diverse ruisomstandigheden aanzienlijk wordt verminderd. Deze fundamentele stabiliteit vertaalt zich direct naar downstream voordelen, wat de robuustheid van SpeechLLM's bij een verscheidenheid aan taken aanzienlijk verbetert.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.