ChatPaper.aiChatPaper

Rappresentazione del parlato attraverso la previsione autoregressiva di token cocleari

Representing Speech Through Autoregressive Prediction of Cochlear Tokens

August 15, 2025
Autori: Greta Tuckute, Klemen Kotar, Evelina Fedorenko, Daniel L. K. Yamins
cs.AI

Abstract

Presentiamo AuriStream, un modello ispirato alla biologia per la codifica del parlato attraverso un framework a due stadi ispirato alla gerarchia di elaborazione uditiva umana. Il primo stadio trasforma l'audio grezzo in una rappresentazione tempo-frequenza basata sulla coclea umana, da cui estraiamo token cocleari discreti. Il secondo stadio applica un modello sequenziale autoregressivo sui token cocleari. AuriStream apprende rappresentazioni significative di fonemi e parole, nonché una semantica lessicale all'avanguardia. AuriStream dimostra prestazioni competitive su una varietà di task di parlato downstream del benchmark SUPERB. Complementando le solide capacità rappresentative di AuriStream, il modello genera continuazioni audio che possono essere visualizzate nello spazio degli spettrogrammi e decodificate nuovamente in audio, fornendo intuizioni sulle previsioni del modello. In sintesi, presentiamo un framework a due stadi per l'apprendimento di rappresentazioni del parlato, con l'obiettivo di avanzare lo sviluppo di modelli più simili all'uomo in grado di gestire in modo efficiente una gamma di task basati sul parlato.
English
We introduce AuriStream, a biologically inspired model for encoding speech via a two-stage framework inspired by the human auditory processing hierarchy. The first stage transforms raw audio into a time-frequency representation based on the human cochlea, from which we extract discrete cochlear tokens. The second stage applies an autoregressive sequence model over the cochlear tokens. AuriStream learns meaningful phoneme and word representations, and state-of-the-art lexical semantics. AuriStream shows competitive performance on diverse downstream SUPERB speech tasks. Complementing AuriStream's strong representational capabilities, it generates continuations of audio which can be visualized in a spectrogram space and decoded back into audio, providing insights into the model's predictions. In summary, we present a two-stage framework for speech representation learning to advance the development of more human-like models that efficiently handle a range of speech-based tasks.
PDF172August 19, 2025