ChatPaper.aiChatPaper

Représentation de la parole par prédiction autorégressive de tokens cochléaires

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
papers.authors: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

papers.abstract

Nous présentons AuriStream, un modèle inspiré de la biologie pour l'encodage de la parole via un cadre en deux étapes inspiré de la hiérarchie du traitement auditif humain. La première étape transforme l'audio brut en une représentation temps-fréquence basée sur la cochlée humaine, à partir de laquelle nous extrayons des tokens cochléaires discrets. La deuxième étape applique un modèle de séquence autorégressif sur ces tokens cochléaires. AuriStream apprend des représentations significatives de phonèmes et de mots, ainsi qu'une sémantique lexicale de pointe. AuriStream démontre des performances compétitives sur diverses tâches de parole SUPERB en aval. Complétant les fortes capacités représentationnelles d'AuriStream, il génère des continuations audio qui peuvent être visualisées dans un espace de spectrogramme et décodées en audio, offrant ainsi des insights sur les prédictions du modèle. En résumé, nous présentons un cadre en deux étapes pour l'apprentissage de représentations de la parole, visant à faire progresser le développement de modèles plus humains capables de gérer efficacement une gamme de tâches basées sur la parole.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF122August 19, 2025