Localiser, Orienter et Améliorer : Une étude pratique de l'interprétabilité mécaniste actionnable dans les grands modèles de langage
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
January 20, 2026
papers.authors: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI
papers.abstract
L'interprétabilité mécaniste (MI) s'est imposée comme une approche essentielle pour démystifier la prise de décision opaque des grands modèles de langage (LLM). Cependant, les revues existantes traitent principalement la MI comme une science observationnelle, se contentant de résumer les insights analytiques sans proposer de cadre systématique pour une intervention actionnable. Pour combler cette lacune, nous présentons une étude pratique structurée autour du pipeline : « Localiser, Piloter et Améliorer ». Nous catégorisons formellement les méthodes de Localisation (diagnostic) et de Pilotage (intervention) en nous basant sur des Objets Interprétables spécifiques afin d'établir un protocole d'intervention rigoureux. De plus, nous démontrons comment ce cadre permet des améliorations tangibles en matière d'Alignement, de Capacité et d'Efficacité, opérationnalisant ainsi efficacement la MI en une méthodologie actionnable pour l'optimisation des modèles. La liste curatée des articles de ce travail est disponible à l'adresse https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.