StableToken: Ein rauschrobuster semantischer Sprach-Tokenizer für widerstandsfähige Sprach-LLMs

papers.abstract

Verbreitete semantische Sprach-Tokenizer, die darauf ausgelegt sind, linguistische Inhalte zu erfassen, erweisen sich überraschend fragil. Wir stellen fest, dass sie nicht robust gegenüber bedeutungsirrelevanten akustischen Störungen sind; selbst bei hohen Signal-Rausch-Verhältnissen (SNRs), bei denen die Sprache vollkommen verständlich ist, können sich ihre Ausgabesequenzen von Token drastisch ändern, was die Lernlast für nachgelagerte LLMs erhöht. Diese Instabilität rührt von zwei Schwächen her: einer brüchigen Einzelpfad-Quantisierungsarchitektur und einem entfernten Trainingssignal, das unempfindlich gegenüber der Stabilität von Zwischentoken ist. Um dies zu beheben, führen wir StableToken ein, einen Tokenizer, der Stabilität durch einen konsensgesteuerten Mechanismus erreicht. Seine Multi-Branch-Architektur verarbeitet Audiodaten parallel, und diese Repräsentationen werden über einen leistungsstarken bitweisen Abstimmungsmechanismus zu einer einzigen, stabilen Token-Sequenz zusammengeführt. StableToken setzt einen neuen Maßstab für die Token-Stabilität und reduziert die Unit Edit Distance (UED) unter verschiedenen Rauschbedingungen drastisch. Diese grundlegende Stabilität führt direkt zu Vorteilen in nachgelagerten Anwendungen und verbessert die Robustheit von SpeechLLMs bei einer Vielzahl von Aufgaben signifikant.

English

Prevalent semantic speech tokenizers, designed to capture linguistic content, are surprisingly fragile. We find they are not robust to meaning-irrelevant acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech is perfectly intelligible, their output token sequences can change drastically, increasing the learning burden for downstream LLMs. This instability stems from two flaws: a brittle single-path quantization architecture and a distant training signal indifferent to intermediate token stability. To address this, we introduce StableToken, a tokenizer that achieves stability through a consensus-driven mechanism. Its multi-branch architecture processes audio in parallel, and these representations are merged via a powerful bit-wise voting mechanism to form a single, stable token sequence. StableToken sets a new state-of-the-art in token stability, drastically reducing Unit Edit Distance (UED) under diverse noise conditions. This foundational stability translates directly to downstream benefits, significantly improving the robustness of SpeechLLMs on a variety of tasks.

StableToken: Ein rauschrobuster semantischer Sprach-Tokenizer für widerstandsfähige Sprach-LLMs

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

papers.abstract

Support