Darstellung von Sprache durch autoregressive Vorhersage von Cochlea-Tokens
Representing Speech Through Autoregressive Prediction of Cochlear Tokens
August 15, 2025
papers.authors: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI
papers.abstract
Wir stellen AuriStream vor, ein biologisch inspiriertes Modell zur Kodierung von Sprache über einen zweistufigen Rahmen, der von der menschlichen auditiven Verarbeitungshierarchie inspiriert ist. Die erste Stufe transformiert das Rohaudio in eine Zeit-Frequenz-Darstellung, die auf der menschlichen Cochlea basiert, aus der wir diskrete Cochlea-Token extrahieren. Die zweite Stufe wendet ein autoregressives Sequenzmodell auf die Cochlea-Token an. AuriStream lernt aussagekräftige Phonem- und Wortrepräsentationen sowie state-of-the-art lexikalische Semantik. AuriStream zeigt wettbewerbsfähige Leistungen bei verschiedenen nachgelagerten SUPERB-Sprachaufgaben. Ergänzend zu den starken Repräsentationsfähigkeiten von AuriStream generiert es Fortsetzungen von Audio, die in einem Spektrogrammraum visualisiert und zurück in Audio dekodiert werden können, was Einblicke in die Vorhersagen des Modells bietet. Zusammenfassend präsentieren wir einen zweistufigen Rahmen für das Erlernen von Sprachrepräsentationen, um die Entwicklung menschenähnlicherer Modelle voranzutreiben, die eine Reihe sprachbasierter Aufgaben effizient bewältigen.
English
We introduce AuriStream, a biologically inspired model for encoding speech
via a two-stage framework inspired by the human auditory processing hierarchy.
The first stage transforms raw audio into a time-frequency representation based
on the human cochlea, from which we extract discrete cochlear tokens.
The second stage applies an autoregressive sequence model over the cochlear
tokens. AuriStream learns meaningful phoneme and word representations, and
state-of-the-art lexical semantics. AuriStream shows competitive performance on
diverse downstream SUPERB speech tasks. Complementing AuriStream's strong
representational capabilities, it generates continuations of audio which can be
visualized in a spectrogram space and decoded back into audio, providing
insights into the model's predictions. In summary, we present a two-stage
framework for speech representation learning to advance the development of more
human-like models that efficiently handle a range of speech-based tasks.