ChatPaper.aiChatPaper

Spraak Representeren via Autoregressieve Voorspelling van Cochleaire Tokens

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
Auteurs: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

Samenvatting

We introduceren AuriStream, een biologisch geïnspireerd model voor het coderen van spraak via een tweestaps raamwerk, geïnspireerd door de hiërarchie van menselijke auditieve verwerking. De eerste stap transformeert ruwe audio in een tijd-frequentie representatie gebaseerd op het menselijke slakkenhuis, waaruit we discrete cochleaire tokens extraheren. De tweede stap past een autoregressief sequentiemodel toe op de cochleaire tokens. AuriStream leert betekenisvolle foneem- en woordrepresentaties, en state-of-the-art lexicale semantiek. AuriStream toont competitieve prestaties op diverse downstream SUPERB spraaktaken. Als aanvulling op de sterke representatiecapaciteiten van AuriStream, genereert het voortzettingen van audio die kunnen worden gevisualiseerd in een spectrogramruimte en teruggecodeerd kunnen worden naar audio, wat inzicht geeft in de voorspellingen van het model. Samenvattend presenteren we een tweestaps raamwerk voor spraakrepresentatie leren om de ontwikkeling van meer mensachtige modellen te bevorderen die efficiënt een reeks spraakgebaseerde taken kunnen uitvoeren.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF172August 19, 2025