StableToken: Un Tokenizzatore Semantico del Parlato Robusto al Rumore per SpeechLLM Resilienti

Abstract

I tokenizzatori semantici del parlato prevalenti, progettati per catturare il contenuto linguistico, si rivelano sorprendentemente fragili. Abbiamo osservato che non sono robusti a perturbazioni acustiche irrilevanti per il significato; anche ad alti rapporti segnale-rumore (SNR) dove il parlato è perfettamente intelligibile, le sequenze di token in output possono cambiare drasticamente, aumentando il carico di apprendimento per i modelli linguistici di grandi dimensioni (LLM) a valle. Questa instabilità deriva da due difetti: un'architettura di quantizzazione a percorso singolo fragile e un segnale di allenamento distante indifferente alla stabilità dei token intermedi. Per affrontare questo problema, introduciamo StableToken, un tokenizzatore che raggiunge la stabilità attraverso un meccanismo basato sul consenso. La sua architettura multi-ramo elabora l'audio in parallelo, e queste rappresentazioni vengono fuse tramite un potente meccanismo di voto bit a bit per formare una singola sequenza di token stabile. StableToken stabilisce un nuovo stato dell'arte nella stabilità dei token, riducendo drasticamente la Distanza di Modifica Unitaria (UED) in diverse condizioni di rumore. Questa stabilità fondamentale si traduce direttamente in benefici a valle, migliorando significativamente la robustezza dei SpeechLLM su una varietà di compiti.

English

Prevalent semantic speech tokenizers, designed to capture linguistic content, are surprisingly fragile. We find they are not robust to meaning-irrelevant acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech is perfectly intelligible, their output token sequences can change drastically, increasing the learning burden for downstream LLMs. This instability stems from two flaws: a brittle single-path quantization architecture and a distant training signal indifferent to intermediate token stability. To address this, we introduce StableToken, a tokenizer that achieves stability through a consensus-driven mechanism. Its multi-branch architecture processes audio in parallel, and these representations are merged via a powerful bit-wise voting mechanism to form a single, stable token sequence. StableToken sets a new state-of-the-art in token stability, drastically reducing Unit Edit Distance (UED) under diverse noise conditions. This foundational stability translates directly to downstream benefits, significantly improving the robustness of SpeechLLMs on a variety of tasks.

StableToken: Un Tokenizzatore Semantico del Parlato Robusto al Rumore per SpeechLLM Resilienti

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

Abstract

Support