StableToken: Um Tokenizador Semântico de Fala Robustos a Ruído para SpeechLLMs Resilientes

Resumo

Os tokenizadores semânticos de fala predominantes, projetados para capturar conteúdo linguístico, são surpreendentemente frágeis. Descobrimos que eles não são robustos a perturbações acústicas irrelevantes para o significado; mesmo em altas taxas de Sinal-Ruído (SNRs), onde a fala é perfeitamente inteligível, suas sequências de tokens de saída podem mudar drasticamente, aumentando a carga de aprendizado para LLMs subsequentes. Essa instabilidade decorre de duas falhas: uma arquitetura de quantização de caminho único frágil e um sinal de treinamento distante indiferente à estabilidade dos tokens intermediários. Para resolver isso, introduzimos o StableToken, um tokenizador que alcança estabilidade por meio de um mecanismo baseado em consenso. Sua arquitetura de múltiplos ramos processa o áudio em paralelo, e essas representações são combinadas por meio de um poderoso mecanismo de votação bit a bit para formar uma única sequência de tokens estável. O StableToken estabelece um novo estado da arte em estabilidade de tokens, reduzindo drasticamente a Distância de Edição de Unidade (UED) sob diversas condições de ruído. Essa estabilidade fundamental se traduz diretamente em benefícios subsequentes, melhorando significativamente a robustez de SpeechLLMs em uma variedade de tarefas.

English

Prevalent semantic speech tokenizers, designed to capture linguistic content, are surprisingly fragile. We find they are not robust to meaning-irrelevant acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech is perfectly intelligible, their output token sequences can change drastically, increasing the learning burden for downstream LLMs. This instability stems from two flaws: a brittle single-path quantization architecture and a distant training signal indifferent to intermediate token stability. To address this, we introduce StableToken, a tokenizer that achieves stability through a consensus-driven mechanism. Its multi-branch architecture processes audio in parallel, and these representations are merged via a powerful bit-wise voting mechanism to form a single, stable token sequence. StableToken sets a new state-of-the-art in token stability, drastically reducing Unit Edit Distance (UED) under diverse noise conditions. This foundational stability translates directly to downstream benefits, significantly improving the robustness of SpeechLLMs on a variety of tasks.

StableToken: Um Tokenizador Semântico de Fala Robustos a Ruído para SpeechLLMs Resilientes

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

Resumo

Support