Analyseer Functiestroom om Interpretatie en Sturing in Taalmodellen te Verbeteren
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
Auteurs: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
Samenvatting
We introduceren een nieuwe aanpak om systematisch kenmerken in kaart te brengen die ontdekt zijn door schaarse auto-encoder over opeenvolgende lagen van grote taalmodellen, waarbij eerder werk wordt uitgebreid dat inter-laag kenmerkverbindingen onderzocht. Door gebruik te maken van een data-vrije cosinusgelijkheidstechniek, traceren we hoe specifieke kenmerken aanhouden, veranderen of voor het eerst verschijnen in elke fase. Deze methode levert gedetailleerde stroomdiagrammen van kenmerkevolutie op, waardoor fijnkorrelige interpreteerbaarheid en mechanistische inzichten in modelberekeningen mogelijk worden. Cruciaal is dat we aantonen hoe deze cross-laag kenmerkkaarten directe sturing van modelgedrag mogelijk maken door gekozen kenmerken te versterken of te onderdrukken, waardoor gerichte thematische controle wordt bereikt in tekstgeneratie. Samen benadrukken onze bevindingen het nut van een causaal, cross-laag interpreteerbaarheidskader dat niet alleen verduidelijkt hoe kenmerken zich ontwikkelen via voorwaartse passes, maar ook nieuwe middelen biedt voor transparante manipulatie van grote taalmodellen.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary