ChatPaper.aiChatPaper

Представление речи через авторегрессивное предсказание кохлеарных токенов

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
Авторы: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

Аннотация

Мы представляем AuriStream, биологически вдохновленную модель для кодирования речи, основанную на двухэтапной структуре, вдохновленной иерархией обработки звука в человеческом слуховом аппарате. На первом этапе исходный аудиосигнал преобразуется в частотно-временное представление, основанное на работе человеческой улитки, из которого извлекаются дискретные кохлеарные токены. На втором этапе применяется авторегрессионная модель последовательностей к этим кохлеарным токенам. AuriStream обучается осмысленным представлениям фонем и слов, а также достигает передового уровня в области лексической семантики. Модель демонстрирует конкурентоспособные результаты на разнообразных задачах из набора SUPERB, связанных с обработкой речи. Дополняя мощные репрезентационные способности AuriStream, модель генерирует продолжения аудиосигналов, которые могут быть визуализированы в спектрограммном пространстве и декодированы обратно в аудио, что позволяет глубже понять предсказания модели. В заключение, мы представляем двухэтапную структуру для обучения репрезентации речи, направленную на развитие более человеко-подобных моделей, эффективно справляющихся с широким спектром задач, связанных с обработкой речи.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF122August 19, 2025