Analyse des Merkmalsflusses zur Verbesserung der Interpretation und Steuerung in Sprachmodellen.
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
Autoren: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
Zusammenfassung
Wir stellen einen neuen Ansatz vor, um systematisch Merkmale zu kartieren, die von spärlichen Autoencodern in aufeinanderfolgenden Schichten großer Sprachmodelle entdeckt wurden. Dies erweitert frühere Arbeiten, die die Verbindungen zwischen den Schichten untersuchten. Durch die Verwendung einer datenfreien Kosinus-Ähnlichkeits-Technik verfolgen wir, wie spezifische Merkmale in jedem Stadium bestehen bleiben, sich verändern oder erstmals auftauchen. Diese Methode liefert detaillierte Flussdiagramme der Merkmalsentwicklung, die eine fein abgestufte Interpretierbarkeit und mechanistische Einblicke in die Modellberechnungen ermöglichen. Entscheidend ist, dass wir zeigen, wie diese Merkmalskarten zwischen den Schichten die direkte Steuerung des Modellverhaltens erleichtern, indem ausgewählte Merkmale verstärkt oder unterdrückt werden, um eine gezielte thematische Kontrolle bei der Textgenerierung zu erreichen. Zusammenfassend verdeutlichen unsere Ergebnisse den Nutzen eines kausalen, schichtenübergreifenden Interpretationsrahmens, der nicht nur aufklärt, wie Merkmale sich bei Vorwärtsdurchläufen entwickeln, sondern auch neue Möglichkeiten für die transparente Manipulation großer Sprachmodelle bietet.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary