Representación del Habla Mediante Predicción Autoregresiva de Tokens Cocleares
Representing Speech Through Autoregressive Prediction of Cochlear Tokens
August 15, 2025
Autores: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI
Resumen
Presentamos AuriStream, un modelo de inspiración biológica para codificar el habla a través de un marco de dos etapas inspirado en la jerarquía del procesamiento auditivo humano. La primera etapa transforma el audio crudo en una representación tiempo-frecuencia basada en la cóclea humana, de la cual extraemos tokens cocleares discretos. La segunda etapa aplica un modelo de secuencia autorregresivo sobre los tokens cocleares. AuriStream aprende representaciones significativas de fonemas y palabras, así como semántica léxica de vanguardia. AuriStream demuestra un rendimiento competitivo en diversas tareas de habla del conjunto SUPERB. Complementando las sólidas capacidades representacionales de AuriStream, genera continuaciones de audio que pueden visualizarse en un espacio de espectrograma y decodificarse de nuevo en audio, proporcionando insights sobre las predicciones del modelo. En resumen, presentamos un marco de dos etapas para el aprendizaje de representaciones del habla con el fin de avanzar en el desarrollo de modelos más similares a los humanos que manejen eficientemente una variedad de tareas basadas en el habla.
English
We introduce AuriStream, a biologically inspired model for encoding speech
via a two-stage framework inspired by the human auditory processing hierarchy.
The first stage transforms raw audio into a time-frequency representation based
on the human cochlea, from which we extract discrete cochlear tokens.
The second stage applies an autoregressive sequence model over the cochlear
tokens. AuriStream learns meaningful phoneme and word representations, and
state-of-the-art lexical semantics. AuriStream shows competitive performance on
diverse downstream SUPERB speech tasks. Complementing AuriStream's strong
representational capabilities, it generates continuations of audio which can be
visualized in a spectrogram space and decoded back into audio, providing
insights into the model's predictions. In summary, we present a two-stage
framework for speech representation learning to advance the development of more
human-like models that efficiently handle a range of speech-based tasks.