StableToken: Ein rauschrobuster semantischer Sprach-Tokenizer für widerstandsfähige Sprach-LLMs
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
papers.authors: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
papers.abstract
Verbreitete semantische Sprach-Tokenizer, die darauf ausgelegt sind, linguistische Inhalte zu erfassen, erweisen sich überraschend fragil. Wir stellen fest, dass sie nicht robust gegenüber bedeutungsirrelevanten akustischen Störungen sind; selbst bei hohen Signal-Rausch-Verhältnissen (SNRs), bei denen die Sprache vollkommen verständlich ist, können sich ihre Ausgabesequenzen von Token drastisch ändern, was die Lernlast für nachgelagerte LLMs erhöht. Diese Instabilität rührt von zwei Schwächen her: einer brüchigen Einzelpfad-Quantisierungsarchitektur und einem entfernten Trainingssignal, das unempfindlich gegenüber der Stabilität von Zwischentoken ist. Um dies zu beheben, führen wir StableToken ein, einen Tokenizer, der Stabilität durch einen konsensgesteuerten Mechanismus erreicht. Seine Multi-Branch-Architektur verarbeitet Audiodaten parallel, und diese Repräsentationen werden über einen leistungsstarken bitweisen Abstimmungsmechanismus zu einer einzigen, stabilen Token-Sequenz zusammengeführt. StableToken setzt einen neuen Maßstab für die Token-Stabilität und reduziert die Unit Edit Distance (UED) unter verschiedenen Rauschbedingungen drastisch. Diese grundlegende Stabilität führt direkt zu Vorteilen in nachgelagerten Anwendungen und verbessert die Robustheit von SpeechLLMs bei einer Vielzahl von Aufgaben signifikant.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.