ChatPaper.aiChatPaper

Representando a Fala por meio de Predição Autoregressiva de Tokens Cocleares

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
Autores: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

Resumo

Apresentamos o AuriStream, um modelo biologicamente inspirado para codificação de fala por meio de uma estrutura de duas etapas inspirada na hierarquia de processamento auditivo humano. A primeira etapa transforma o áudio bruto em uma representação tempo-frequência baseada na cóclea humana, da qual extraímos tokens cocleares discretos. A segunda etapa aplica um modelo de sequência autorregressivo sobre os tokens cocleares. O AuriStream aprende representações significativas de fonemas e palavras, além de alcançar semântica lexical de ponta. O AuriStream demonstra desempenho competitivo em diversas tarefas de fala do benchmark SUPERB. Complementando as fortes capacidades representacionais do AuriStream, ele gera continuações de áudio que podem ser visualizadas no espaço de espectrogramas e decodificadas de volta em áudio, fornecendo insights sobre as previsões do modelo. Em resumo, apresentamos uma estrutura de duas etapas para aprendizado de representação de fala, visando avançar o desenvolvimento de modelos mais semelhantes aos humanos que lidam eficientemente com uma variedade de tarefas baseadas em fala.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF172August 19, 2025