위치, 조향, 개선: 대규모 언어 모델에서 실용적인 기계론적 해석 가능성에 관한 실질적 조사
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
January 20, 2026
저자: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI
초록
기계론적 해석 가능성(Mechanistic Interpretability, MI)은 대규모 언어 모델(LLM)의 불투명한 의사 결정 과정을 규명하는 핵심적 접근법으로 부상했다. 그러나 기존 연구 동향 분석은 주로 MI를 관찰 과학으로 취급하며 분석적 통찰을 요약하는 데 그치고, 체계적인 실천적 개입 프레임워크를 제시하지 못했다. 이러한 격차를 해소하기 위해 본 논문은 "진단(Locate), 조정(Steer), 개선(Improve)" 파이프라인을 중심으로 구성된 실용적 조사 연구를 제안한다. 우리는 특정 해석 가능 객체(Interpretable Objects)를 기반으로 진단(국소화) 및 개입(조정) 방법을 체계적으로 분류하여 엄격한 개입 프로토콜을 수립한다. 더 나아가 이 프레임워크가 모델의 정렬(Alignment), 능력(Capability), 효율성(Efficiency) 측면에서 가시적인 개선을 가능하게 하여 MI를 모델 최적화를 위한 실천 방법론으로 효과적으로 운영하는 방식을 입증한다. 본 연구의 선별된 논문 목록은 https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey에서 확인할 수 있다.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.