Au-delà de la transcription : interprétation mécaniste dans la reconnaissance automatique de la parole
Beyond Transcription: Mechanistic Interpretability in ASR
August 21, 2025
papers.authors: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
cs.AI
papers.abstract
Les méthodes d'interprétabilité ont récemment suscité un intérêt considérable, en particulier dans le contexte des grands modèles de langage, permettant d'obtenir des insights sur les représentations linguistiques, la détection d'erreurs et les comportements des modèles tels que les hallucinations et les répétitions. Cependant, ces techniques restent peu explorées dans le domaine de la reconnaissance automatique de la parole (ASR), malgré leur potentiel pour améliorer à la fois les performances et l'interprétabilité des systèmes ASR. Dans ce travail, nous adaptons et appliquons systématiquement des méthodes d'interprétabilité établies telles que le logit lens, le sondage linéaire et le patch d'activation, pour examiner comment les informations acoustiques et sémantiques évoluent à travers les couches des systèmes ASR. Nos expériences révèlent des dynamiques internes jusqu'alors inconnues, incluant des interactions spécifiques entre encodeur et décodeur responsables des hallucinations de répétition et des biais sémantiques encodés profondément dans les représentations acoustiques. Ces insights démontrent les avantages de l'extension et de l'application des techniques d'interprétabilité à la reconnaissance vocale, ouvrant des perspectives prometteuses pour des recherches futures visant à améliorer la transparence et la robustesse des modèles.
English
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpretability methods such as logit lens,
linear probing, and activation patching, to examine how acoustic and semantic
information evolves across layers in ASR systems. Our experiments reveal
previously unknown internal dynamics, including specific encoder-decoder
interactions responsible for repetition hallucinations and semantic biases
encoded deep within acoustic representations. These insights demonstrate the
benefits of extending and applying interpretability techniques to speech
recognition, opening promising directions for future research on improving
model transparency and robustness.