Más allá de la transcripción: Interpretabilidad mecanicista en ASR
Beyond Transcription: Mechanistic Interpretability in ASR
August 21, 2025
Autores: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
cs.AI
Resumen
Los métodos de interpretabilidad han ganado reciente atención significativa, particularmente en el contexto de los modelos de lenguaje grandes, permitiendo obtener información sobre representaciones lingüísticas, detección de errores y comportamientos del modelo como alucinaciones y repeticiones. Sin embargo, estas técnicas siguen siendo poco exploradas en el reconocimiento automático del habla (ASR), a pesar de su potencial para avanzar tanto en el rendimiento como en la interpretabilidad de los sistemas ASR. En este trabajo, adaptamos y aplicamos sistemáticamente métodos de interpretabilidad establecidos como el "logit lens", el sondeo lineal y el parcheo de activaciones, para examinar cómo la información acústica y semántica evoluciona a través de las capas en los sistemas ASR. Nuestros experimentos revelan dinámicas internas previamente desconocidas, incluyendo interacciones específicas entre el codificador y el decodificador responsables de alucinaciones por repetición y sesgos semánticos codificados profundamente dentro de las representaciones acústicas. Estas observaciones demuestran los beneficios de extender y aplicar técnicas de interpretabilidad al reconocimiento del habla, abriendo direcciones prometedoras para futuras investigaciones sobre la mejora de la transparencia y robustez de los modelos.
English
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpretability methods such as logit lens,
linear probing, and activation patching, to examine how acoustic and semantic
information evolves across layers in ASR systems. Our experiments reveal
previously unknown internal dynamics, including specific encoder-decoder
interactions responsible for repetition hallucinations and semantic biases
encoded deep within acoustic representations. These insights demonstrate the
benefits of extending and applying interpretability techniques to speech
recognition, opening promising directions for future research on improving
model transparency and robustness.