ChatPaper.aiChatPaper

Representación del Habla Mediante Predicción Autoregresiva de Tokens Cocleares

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
Autores: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

Resumen

Presentamos AuriStream, un modelo de inspiración biológica para codificar el habla a través de un marco de dos etapas inspirado en la jerarquía del procesamiento auditivo humano. La primera etapa transforma el audio crudo en una representación tiempo-frecuencia basada en la cóclea humana, de la cual extraemos tokens cocleares discretos. La segunda etapa aplica un modelo de secuencia autorregresivo sobre los tokens cocleares. AuriStream aprende representaciones significativas de fonemas y palabras, así como semántica léxica de vanguardia. AuriStream demuestra un rendimiento competitivo en diversas tareas de habla del conjunto SUPERB. Complementando las sólidas capacidades representacionales de AuriStream, genera continuaciones de audio que pueden visualizarse en un espacio de espectrograma y decodificarse de nuevo en audio, proporcionando insights sobre las predicciones del modelo. En resumen, presentamos un marco de dos etapas para el aprendizaje de representaciones del habla con el fin de avanzar en el desarrollo de modelos más similares a los humanos que manejen eficientemente una variedad de tareas basadas en el habla.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF122August 19, 2025