Lokaliseren, Sturen en Verbeteren: Een Praktische Verkenning van Toepasbare Mechanistische Interpretabiliteit in Grote Taalmodellen
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
January 20, 2026
Auteurs: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI
Samenvatting
Mechanistische Interpretabiliteit (MI) is naar voren gekomen als een essentiële benadering om de ondoorzichtige besluitvorming van Grote Taalmodellen (LLM's) te ontrafelen. Bestaande overzichten behandelen MI echter voornamelijk als een observationele wetenschap, waarbij analytische inzichten worden samengevat maar een systematisch kader voor actieve interventie ontbreekt. Om deze kloof te overbruggen, presenteren wij een praktisch overzicht, gestructureerd rond de pijplijn: "Lokaliseren, Sturen en Verbeteren". We categoriseren Lokalisatie- (diagnose) en Stuurmethoden (interventie) formeel op basis van specifieke Interpreteerbare Objecten om een rigoureus interventieprotocol vast te stellen. Verder tonen we aan hoe dit kader tastbare verbeteringen mogelijk maakt op het gebied van Afstemming, Capaciteit en Efficiëntie, waardoor MI effectief wordt geoperationaliseerd als een bruikbare methodologie voor modeloptimalisatie. De gecureerde literatuurlijst van dit werk is beschikbaar op https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.