Voorbij Transcriptie: Mechanistische Interpretabiliteit in ASR
Beyond Transcription: Mechanistic Interpretability in ASR
August 21, 2025
Auteurs: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
cs.AI
Samenvatting
Interpretatiemethoden hebben recentelijk aanzienlijke aandacht gekregen, met name in de context van grote taalmodel(len), waardoor inzichten worden verkregen in linguïstische representaties, foutdetectie en modelgedragingen zoals hallucinaties en herhalingen. Deze technieken blijven echter onderbelicht in automatische spraakherkenning (ASR), ondanks hun potentieel om zowel de prestaties als de interpreteerbaarheid van ASR-systemen te verbeteren. In dit werk passen we gevestigde interpretatiemethoden zoals logit lens, lineaire probing en activatiepatching aan en passen deze systematisch toe om te onderzoeken hoe akoestische en semantische informatie zich ontwikkelt over de lagen in ASR-systemen. Onze experimenten onthullen voorheen onbekende interne dynamieken, waaronder specifieke encoder-decoder-interacties die verantwoordelijk zijn voor herhalingshallucinaties en semantische vooroordelen die diep in akoestische representaties zijn gecodeerd. Deze inzichten demonstreren de voordelen van het uitbreiden en toepassen van interpretatietechnieken op spraakherkenning, wat veelbelovende richtingen opent voor toekomstig onderzoek naar het verbeteren van modeltransparantie en robuustheid.
English
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpretability methods such as logit lens,
linear probing, and activation patching, to examine how acoustic and semantic
information evolves across layers in ASR systems. Our experiments reveal
previously unknown internal dynamics, including specific encoder-decoder
interactions responsible for repetition hallucinations and semantic biases
encoded deep within acoustic representations. These insights demonstrate the
benefits of extending and applying interpretability techniques to speech
recognition, opening promising directions for future research on improving
model transparency and robustness.