StableToken: Устойчивый к шуму семантический токенизатор речи для надежных речевых языковых моделей

Аннотация

Распространенные семантические токенизаторы речи, разработанные для захвата лингвистического содержания, оказываются удивительно хрупкими. Мы обнаружили, что они не устойчивы к акустическим возмущениям, не влияющим на смысл; даже при высоких отношениях сигнал/шум (SNR), когда речь остается полностью разборчивой, их выходные последовательности токенов могут значительно изменяться, увеличивая нагрузку на обучение для последующих языковых моделей (LLM). Эта нестабильность обусловлена двумя недостатками: хрупкой архитектурой однопоточной квантизации и удаленным обучающим сигналом, безразличным к стабильности промежуточных токенов. Для решения этой проблемы мы представляем StableToken — токенизатор, который достигает стабильности за счет механизма, основанного на консенсусе. Его многопоточная архитектура параллельно обрабатывает аудио, а эти представления объединяются с помощью мощного битового механизма голосования для формирования единой стабильной последовательности токенов. StableToken устанавливает новый эталон в области стабильности токенов, значительно сокращая расстояние редактирования единиц (UED) в различных шумовых условиях. Эта фундаментальная стабильность напрямую приводит к улучшению результатов на последующих этапах, значительно повышая устойчивость SpeechLLM в различных задачах.

English

Prevalent semantic speech tokenizers, designed to capture linguistic content, are surprisingly fragile. We find they are not robust to meaning-irrelevant acoustic perturbations; even at high Signal-to-Noise Ratios (SNRs) where speech is perfectly intelligible, their output token sequences can change drastically, increasing the learning burden for downstream LLMs. This instability stems from two flaws: a brittle single-path quantization architecture and a distant training signal indifferent to intermediate token stability. To address this, we introduce StableToken, a tokenizer that achieves stability through a consensus-driven mechanism. Its multi-branch architecture processes audio in parallel, and these representations are merged via a powerful bit-wise voting mechanism to form a single, stable token sequence. StableToken sets a new state-of-the-art in token stability, drastically reducing Unit Edit Distance (UED) under diverse noise conditions. This foundational stability translates directly to downstream benefits, significantly improving the robustness of SpeechLLMs on a variety of tasks.

StableToken: Устойчивый к шуму семантический токенизатор речи для надежных речевых языковых моделей

StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

Аннотация

Support