Lokaliseren, Sturen en Verbeteren: Een Praktische Verkenning van Toepasbare Mechanistische Interpretabiliteit in Grote Taalmodellen

Samenvatting

Mechanistische Interpretabiliteit (MI) is naar voren gekomen als een essentiële benadering om de ondoorzichtige besluitvorming van Grote Taalmodellen (LLM's) te ontrafelen. Bestaande overzichten behandelen MI echter voornamelijk als een observationele wetenschap, waarbij analytische inzichten worden samengevat maar een systematisch kader voor actieve interventie ontbreekt. Om deze kloof te overbruggen, presenteren wij een praktisch overzicht, gestructureerd rond de pijplijn: "Lokaliseren, Sturen en Verbeteren". We categoriseren Lokalisatie- (diagnose) en Stuurmethoden (interventie) formeel op basis van specifieke Interpreteerbare Objecten om een rigoureus interventieprotocol vast te stellen. Verder tonen we aan hoe dit kader tastbare verbeteringen mogelijk maakt op het gebied van Afstemming, Capaciteit en Efficiëntie, waardoor MI effectief wordt geoperationaliseerd als een bruikbare methodologie voor modeloptimalisatie. De gecureerde literatuurlijst van dit werk is beschikbaar op https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.

English

Mechanistic Interpretability (MI) has emerged as a vital approach to demystify the opaque decision-making of Large Language Models (LLMs). However, existing reviews primarily treat MI as an observational science, summarizing analytical insights while lacking a systematic framework for actionable intervention. To bridge this gap, we present a practical survey structured around the pipeline: "Locate, Steer, and Improve." We formally categorize Localizing (diagnosis) and Steering (intervention) methods based on specific Interpretable Objects to establish a rigorous intervention protocol. Furthermore, we demonstrate how this framework enables tangible improvements in Alignment, Capability, and Efficiency, effectively operationalizing MI as an actionable methodology for model optimization. The curated paper list of this work is available at https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.

Lokaliseren, Sturen en Verbeteren: Een Praktische Verkenning van Toepasbare Mechanistische Interpretabiliteit in Grote Taalmodellen

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Samenvatting

Support