StableToken : Un Tokenizer Sémantique de Parole Résistant au Bruit pour des Modèles de Langage Parlé Résilients
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
papers.authors: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
papers.abstract
Les tokenizers sémantiques de parole prédominants, conçus pour capturer le contenu linguistique, s'avèrent étonnamment fragiles. Nous constatons qu'ils ne sont pas robustes face à des perturbations acoustiques sans impact sur le sens ; même à des rapports signal sur bruit (SNR) élevés où la parole reste parfaitement intelligible, leurs séquences de tokens en sortie peuvent changer radicalement, augmentant ainsi la charge d'apprentissage pour les modèles de langage (LLMs) en aval. Cette instabilité découle de deux défauts : une architecture de quantification à chemin unique fragile et un signal d'apprentissage distant indifférent à la stabilité des tokens intermédiaires. Pour remédier à cela, nous introduisons StableToken, un tokenizer qui atteint la stabilité grâce à un mécanisme basé sur le consensus. Son architecture multi-branches traite l'audio en parallèle, et ces représentations sont fusionnées via un puissant mécanisme de vote bit à bit pour former une séquence de tokens unique et stable. StableToken établit un nouvel état de l'art en matière de stabilité des tokens, réduisant considérablement la distance d'édition unitaire (UED) dans diverses conditions de bruit. Cette stabilité fondamentale se traduit directement par des avantages en aval, améliorant significativement la robustesse des SpeechLLMs sur une variété de tâches.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.