ChatPaper.aiChatPaper

StableToken: Um Tokenizador Semântico de Fala Robustos a Ruído para SpeechLLMs Resilientes

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

September 26, 2025
Autores: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI

Resumo

Os tokenizadores semânticos de fala predominantes, projetados para capturar conteúdo linguístico, são surpreendentemente frágeis. Descobrimos que eles não são robustos a perturbações acústicas irrelevantes para o significado; mesmo em altas taxas de Sinal-Ruído (SNRs), onde a fala é perfeitamente inteligível, suas sequências de tokens de saída podem mudar drasticamente, aumentando a carga de aprendizado para LLMs subsequentes. Essa instabilidade decorre de duas falhas: uma arquitetura de quantização de caminho único frágil e um sinal de treinamento distante indiferente à estabilidade dos tokens intermediários. Para resolver isso, introduzimos o StableToken, um tokenizador que alcança estabilidade por meio de um mecanismo baseado em consenso. Sua arquitetura de múltiplos ramos processa o áudio em paralelo, e essas representações são combinadas por meio de um poderoso mecanismo de votação bit a bit para formar uma única sequência de tokens estável. O StableToken estabelece um novo estado da arte em estabilidade de tokens, reduzindo drasticamente a Distância de Edição de Unidade (UED) sob diversas condições de ruído. Essa estabilidade fundamental se traduz diretamente em benefícios subsequentes, melhorando significativamente a robustez de SpeechLLMs em uma variedade de tarefas.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content, are surprisingly fragile. We find they are not robust to meaning-irrelevant acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech is perfectly intelligible, their output token sequences can change drastically, increasing the learning burden for downstream LLMs. This instability stems from two flaws: a brittle single-path quantization architecture and a distant training signal indifferent to intermediate token stability. To address this, we introduce StableToken, a tokenizer that achieves stability through a consensus-driven mechanism. Its multi-branch architecture processes audio in parallel, and these representations are merged via a powerful bit-wise voting mechanism to form a single, stable token sequence. StableToken sets a new state-of-the-art in token stability, drastically reducing Unit Edit Distance (UED) under diverse noise conditions. This foundational stability translates directly to downstream benefits, significantly improving the robustness of SpeechLLMs on a variety of tasks.
PDF642September 30, 2025