Voorbij Transcriptie: Mechanistische Interpretabiliteit in ASR

Samenvatting

Interpretatiemethoden hebben recentelijk aanzienlijke aandacht gekregen, met name in de context van grote taalmodel(len), waardoor inzichten worden verkregen in linguïstische representaties, foutdetectie en modelgedragingen zoals hallucinaties en herhalingen. Deze technieken blijven echter onderbelicht in automatische spraakherkenning (ASR), ondanks hun potentieel om zowel de prestaties als de interpreteerbaarheid van ASR-systemen te verbeteren. In dit werk passen we gevestigde interpretatiemethoden zoals logit lens, lineaire probing en activatiepatching aan en passen deze systematisch toe om te onderzoeken hoe akoestische en semantische informatie zich ontwikkelt over de lagen in ASR-systemen. Onze experimenten onthullen voorheen onbekende interne dynamieken, waaronder specifieke encoder-decoder-interacties die verantwoordelijk zijn voor herhalingshallucinaties en semantische vooroordelen die diep in akoestische representaties zijn gecodeerd. Deze inzichten demonstreren de voordelen van het uitbreiden en toepassen van interpretatietechnieken op spraakherkenning, wat veelbelovende richtingen opent voor toekomstig onderzoek naar het verbeteren van modeltransparantie en robuustheid.

English

Interpretability methods have recently gained significant attention, particularly in the context of large language models, enabling insights into linguistic representations, error detection, and model behaviors such as hallucinations and repetitions. However, these techniques remain underexplored in automatic speech recognition (ASR), despite their potential to advance both the performance and interpretability of ASR systems. In this work, we adapt and systematically apply established interpretability methods such as logit lens, linear probing, and activation patching, to examine how acoustic and semantic information evolves across layers in ASR systems. Our experiments reveal previously unknown internal dynamics, including specific encoder-decoder interactions responsible for repetition hallucinations and semantic biases encoded deep within acoustic representations. These insights demonstrate the benefits of extending and applying interpretability techniques to speech recognition, opening promising directions for future research on improving model transparency and robustness.

Voorbij Transcriptie: Mechanistische Interpretabiliteit in ASR

Beyond Transcription: Mechanistic Interpretability in ASR

Samenvatting

Support