Localizzare, Dirigere e Migliorare: Una Panoramica Pratica dell'Interpretabilità Meccanicistica Attuabile nei Grandi Modelli Linguistici

Abstract

L'Interpretabilità Meccanicistica (MI) è emersa come un approccio cruciale per demistificare il processo decisionale opaco dei Large Language Model (LLM). Tuttavia, le revisioni esistenti trattano principalmente la MI come una scienza osservativa, sintetizzando le intuizioni analitiche ma mancando di un quadro sistematico per interventi concreti. Per colmare questa lacuna, presentiamo una survey pratica strutturata attorno alla pipeline: "Localizzare, Guidare e Migliorare". Categorizziamo formalmente i metodi di Localizzazione (diagnosi) e di Guida (intervento) sulla base di specifici Oggetti Interpretabili per stabilire un protocollo di intervento rigoroso. Inoltre, dimostriamo come questo quadro consenta miglioramenti tangibili in termini di Allineamento, Capacità ed Efficienza, rendendo operativa la MI come metodologia attuabile per l'ottimizzazione dei modelli. La lista curata di articoli di questo lavoro è disponibile all'indirizzo https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.

English

Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.

Localizzare, Dirigere e Migliorare: Una Panoramica Pratica dell'Interpretabilità Meccanicistica Attuabile nei Grandi Modelli Linguistici

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Abstract

Support