ChatPaper.aiChatPaper

Localizzare, Dirigere e Migliorare: Una Panoramica Pratica dell'Interpretabilità Meccanicistica Attuabile nei Grandi Modelli Linguistici

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

January 20, 2026
Autori: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI

Abstract

L'Interpretabilità Meccanicistica (MI) è emersa come un approccio cruciale per demistificare il processo decisionale opaco dei Large Language Model (LLM). Tuttavia, le revisioni esistenti trattano principalmente la MI come una scienza osservativa, sintetizzando le intuizioni analitiche ma mancando di un quadro sistematico per interventi concreti. Per colmare questa lacuna, presentiamo una survey pratica strutturata attorno alla pipeline: "Localizzare, Guidare e Migliorare". Categorizziamo formalmente i metodi di Localizzazione (diagnosi) e di Guida (intervento) sulla base di specifici Oggetti Interpretabili per stabilire un protocollo di intervento rigoroso. Inoltre, dimostriamo come questo quadro consenta miglioramenti tangibili in termini di Allineamento, Capacità ed Efficienza, rendendo operativa la MI come metodologia attuabile per l'ottimizzazione dei modelli. La lista curata di articoli di questo lavoro è disponibile all'indirizzo https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
PDF472March 6, 2026