Localizar, Dirigir y Mejorar: Una Revisión Práctica de la Interpretabilidad Mecanicista Accionable en Modelos de Lenguaje a Gran Escala
Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models
January 20, 2026
Autores: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI
Resumen
La Interpretabilidad Mecanicista (MI) ha surgido como un enfoque vital para desmitificar la opaca toma de decisiones de los Modelos de Lenguaje a Gran Escala (LLMs). Sin embargo, las revisiones existentes tratan principalmente a la MI como una ciencia observacional, resumiendo hallazgos analíticos mientras carecen de un marco sistemático para una intervención accionable. Para cerrar esta brecha, presentamos una encuesta práctica estructurada en torno al pipeline: "Localizar, Dirigir y Mejorar". Categorizamos formalmente los métodos de Localización (diagnóstico) y Dirección (intervención) basándonos en Objetos Interpretables específicos para establecer un protocolo de intervención riguroso. Además, demostramos cómo este marco permite mejoras tangibles en Alineación, Capacidad y Eficiencia, operacionalizando efectivamente la MI como una metodología accionable para la optimización de modelos. La lista curada de artículos de este trabajo está disponible en https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.