StableToken: Устойчивый к шуму семантический токенизатор речи для надежных речевых языковых моделей
StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs
September 26, 2025
Авторы: Yuhan Song, Linhao Zhang, Chuhan Wu, Aiwei Liu, Wei Jia, Houfeng Wang, Xiao Zhou
cs.AI
Аннотация
Распространенные семантические токенизаторы речи, разработанные для захвата лингвистического содержания, оказываются удивительно хрупкими. Мы обнаружили, что они не устойчивы к акустическим возмущениям, не влияющим на смысл; даже при высоких отношениях сигнал/шум (SNR), когда речь остается полностью разборчивой, их выходные последовательности токенов могут значительно изменяться, увеличивая нагрузку на обучение для последующих языковых моделей (LLM). Эта нестабильность обусловлена двумя недостатками: хрупкой архитектурой однопоточной квантизации и удаленным обучающим сигналом, безразличным к стабильности промежуточных токенов. Для решения этой проблемы мы представляем StableToken — токенизатор, который достигает стабильности за счет механизма, основанного на консенсусе. Его многопоточная архитектура параллельно обрабатывает аудио, а эти представления объединяются с помощью мощного битового механизма голосования для формирования единой стабильной последовательности токенов. StableToken устанавливает новый эталон в области стабильности токенов, значительно сокращая расстояние редактирования единиц (UED) в различных шумовых условиях. Эта фундаментальная стабильность напрямую приводит к улучшению результатов на последующих этапах, значительно повышая устойчивость SpeechLLM в различных задачах.
English
Prevalent semantic speech tokenizers, designed to capture linguistic content,
are surprisingly fragile. We find they are not robust to meaning-irrelevant
acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech
is perfectly intelligible, their output token sequences can change drastically,
increasing the learning burden for downstream LLMs. This instability stems from
two flaws: a brittle single-path quantization architecture and a distant
training signal indifferent to intermediate token stability. To address this,
we introduce StableToken, a tokenizer that achieves stability through a
consensus-driven mechanism. Its multi-branch architecture processes audio in
parallel, and these representations are merged via a powerful bit-wise voting
mechanism to form a single, stable token sequence. StableToken sets a new
state-of-the-art in token stability, drastically reducing Unit Edit Distance
(UED) under diverse noise conditions. This foundational stability translates
directly to downstream benefits, significantly improving the robustness of
SpeechLLMs on a variety of tasks.