За пределами транскрипции: механистическая интерпретируемость в системах автоматического распознавания речи
Beyond Transcription: Mechanistic Interpretability in ASR
August 21, 2025
Авторы: Neta Glazer, Yael Segal-Feldman, Hilit Segev, Aviv Shamsian, Asaf Buchnick, Gill Hetz, Ethan Fetaya, Joseph Keshet, Aviv Navon
cs.AI
Аннотация
Методы интерпретируемости в последнее время привлекают значительное внимание, особенно в контексте крупных языковых моделей, позволяя получить представление о лингвистических представлениях, обнаружении ошибок и поведении моделей, таких как галлюцинации и повторения. Однако эти методы остаются недостаточно изученными в области автоматического распознавания речи (ASR), несмотря на их потенциал для улучшения как производительности, так и интерпретируемости систем ASR. В данной работе мы адаптируем и систематически применяем устоявшиеся методы интерпретируемости, такие как logit lens, линейное зондирование и активационное патчинг, чтобы исследовать, как акустическая и семантическая информация развивается по слоям в системах ASR. Наши эксперименты выявляют ранее неизвестные внутренние динамики, включая специфические взаимодействия между кодировщиком и декодировщиком, ответственные за повторяющиеся галлюцинации и семантические смещения, закодированные глубоко в акустических представлениях. Эти инсайты демонстрируют преимущества расширения и применения методов интерпретируемости к распознаванию речи, открывая перспективные направления для будущих исследований по улучшению прозрачности и устойчивости моделей.
English
Interpretability methods have recently gained significant attention,
particularly in the context of large language models, enabling insights into
linguistic representations, error detection, and model behaviors such as
hallucinations and repetitions. However, these techniques remain underexplored
in automatic speech recognition (ASR), despite their potential to advance both
the performance and interpretability of ASR systems. In this work, we adapt and
systematically apply established interpretability methods such as logit lens,
linear probing, and activation patching, to examine how acoustic and semantic
information evolves across layers in ASR systems. Our experiments reveal
previously unknown internal dynamics, including specific encoder-decoder
interactions responsible for repetition hallucinations and semantic biases
encoded deep within acoustic representations. These insights demonstrate the
benefits of extending and applying interpretability techniques to speech
recognition, opening promising directions for future research on improving
model transparency and robustness.