位置特定、操作、改良:大規模言語モデルにおける実践的メカニズム解釈可能性のサーベイ
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
January 20, 2026
著者: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI
要旨
機構的解釈性(Mechanistic Interpretability: MI)は、大規模言語モデル(LLM)のブラックボックス化した意思決定プロセスを解明する重要な手法として台頭してきた。しかし、既存のサーベイ論文はMIを観察科学として扱うことが多く、分析的な知見をまとめる一方で、実践的な介入のための体系的枠組みを欠いている。この隔たりを埋めるため、本稿では「特定・操作・改善」のパイプラインに沿った実践的サーベイを提案する。我々は、解釈可能対象(Interpretable Objects)に基づいて、診断にあたる「局所化(Localizing)」と介入にあたる「操作(Steering)」の手法を形式的に分類し、厳密な介入プロトコルを確立する。さらに、この枠組みがモデルのアラインメント・能力・効率性の具体的な改善を可能にし、MIをモデル最適化の実践的手法として機能させることを示す。本調査の厳選された論文リストはhttps://github.com/rattlesnakey/Awesome-Actionable-MI-Surveyで公開されている。
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.