Localizar, Direcionar e Aprimorar: Um Estudo Prático sobre Interpretabilidade Mecanicista Aplicável em Grandes Modelos de Linguagem

Resumo

A Interpretabilidade Mecanicista (IM) emergiu como uma abordagem vital para desmistificar a tomada de decisão opaca dos Grandes Modelos de Linguagem (LLMs). No entanto, as revisões existentes tratam a IM principalmente como uma ciência observacional, resumindo insights analíticos, mas carecendo de uma estrutura sistemática para intervenção acionável. Para preencher essa lacuna, apresentamos uma pesquisa prática estruturada em torno do pipeline: "Localizar, Direcionar e Melhorar". Categorizamos formalmente os métodos de Localização (diagnóstico) e Direcionamento (intervenção) com base em Objetos Interpretáveis específicos para estabelecer um protocolo de intervenção rigoroso. Além disso, demonstramos como essa estrutura permite melhorias tangíveis em Alinhamento, Capacidade e Eficiência, operacionalizando efetivamente a IM como uma metodologia acionável para a otimização de modelos. A lista curada de artigos deste trabalho está disponível em https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.

English

Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.