ChatPaper.aiChatPaper

Найти, направить и улучшить: практический обзор действенных методов механистической интерпретации больших языковых моделей

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

January 20, 2026
Авторы: Hengyuan Zhang, Zhihao Zhang, Mingyang Wang, Zunhai Su, Yiwei Wang, Qianli Wang, Shuzhou Yuan, Ercong Nie, Xufeng Duan, Qibo Xue, Zeping Yu, Chenming Shang, Xiao Liang, Jing Xiong, Hui Shen, Chaofan Tao, Zhengwu Liu, Senjie Jin, Zhiheng Xi, Dongdong Zhang, Sophia Ananiadou, Tao Gui, Ruobing Xie, Hayden Kwok-Hay So, Hinrich Schütze, Xuanjing Huang, Qi Zhang, Ngai Wong
cs.AI

Аннотация

Механистическая интерпретируемость (МИ) стала важным подходом для раскрытия принципов работы «чёрного ящика» больших языковых моделей (БЯМ). Однако существующие обзоры в основном рассматривают МИ как описательную науку, суммируя аналитические наблюдения, но не предлагая систематической основы для практического вмешательства. Чтобы заполнить этот пробел, мы представляем практический обзор, структурированный вокруг конвейера: «Локализация, Управление и Улучшение». Мы формально классифицируем методы локализации (диагностики) и управления (вмешательства) на основе конкретных интерпретируемых объектов, чтобы установить строгий протокол вмешательства. Кроме того, мы демонстрируем, как данный подход позволяет достичь ощутимого улучшения согласованности, возможностей и эффективности моделей, превращая МИ в действенную методологию для их оптимизации. Подборка статей по данной теме доступна по адресу https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
English
Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
PDF171January 22, 2026