ChatPaper.aiChatPaper

Analyseer Functiestroom om Interpretatie en Sturing in Taalmodellen te Verbeteren

Analyze Feature Flow to Enhance Interpretation and Steering in Language Models

February 5, 2025
Auteurs: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI

Samenvatting

We introduceren een nieuwe aanpak om systematisch kenmerken in kaart te brengen die ontdekt zijn door schaarse auto-encoder over opeenvolgende lagen van grote taalmodellen, waarbij eerder werk wordt uitgebreid dat inter-laag kenmerkverbindingen onderzocht. Door gebruik te maken van een data-vrije cosinusgelijkheidstechniek, traceren we hoe specifieke kenmerken aanhouden, veranderen of voor het eerst verschijnen in elke fase. Deze methode levert gedetailleerde stroomdiagrammen van kenmerkevolutie op, waardoor fijnkorrelige interpreteerbaarheid en mechanistische inzichten in modelberekeningen mogelijk worden. Cruciaal is dat we aantonen hoe deze cross-laag kenmerkkaarten directe sturing van modelgedrag mogelijk maken door gekozen kenmerken te versterken of te onderdrukken, waardoor gerichte thematische controle wordt bereikt in tekstgeneratie. Samen benadrukken onze bevindingen het nut van een causaal, cross-laag interpreteerbaarheidskader dat niet alleen verduidelijkt hoe kenmerken zich ontwikkelen via voorwaartse passes, maar ook nieuwe middelen biedt voor transparante manipulatie van grote taalmodellen.
English
We introduce a new approach to systematically map features discovered by sparse autoencoder across consecutive layers of large language models, extending earlier work that examined inter-layer feature links. By using a data-free cosine similarity technique, we trace how specific features persist, transform, or first appear at each stage. This method yields granular flow graphs of feature evolution, enabling fine-grained interpretability and mechanistic insights into model computations. Crucially, we demonstrate how these cross-layer feature maps facilitate direct steering of model behavior by amplifying or suppressing chosen features, achieving targeted thematic control in text generation. Together, our findings highlight the utility of a causal, cross-layer interpretability framework that not only clarifies how features develop through forward passes but also provides new means for transparent manipulation of large language models.

Summary

AI-Generated Summary

PDF602February 7, 2025