Analyser le Flux de Caractéristiques pour Améliorer l'Interprétation et le Pilotage dans les Modèles de Langue
Analyze Feature Flow to Enhance Interpretation and Steering in Language Models
February 5, 2025
Auteurs: Daniil Laptev, Nikita Balagansky, Yaroslav Aksenov, Daniil Gavrilov
cs.AI
Résumé
Nous introduisons une nouvelle approche pour cartographier systématiquement les caractéristiques découvertes par un autoencodeur parcimonieux à travers des couches consécutives de grands modèles de langage, étendant les travaux antérieurs qui ont examiné les liens entre les caractéristiques inter-couches. En utilisant une technique de similarité cosinus sans données, nous suivons comment des caractéristiques spécifiques persistent, se transforment ou apparaissent pour la première fois à chaque étape. Cette méthode produit des graphiques de flux granulaires de l'évolution des caractéristiques, permettant une interprétabilité fine et des aperçus mécanistes des calculs du modèle. De manière cruciale, nous démontrons comment ces cartes de caractéristiques entre les couches facilitent la direction directe du comportement du modèle en amplifiant ou en supprimant des caractéristiques choisies, atteignant un contrôle thématique ciblé dans la génération de texte. Ensemble, nos résultats mettent en lumière l'utilité d'un cadre d'interprétabilité causal entre les couches qui non seulement clarifie comment les caractéristiques se développent à travers les passes en avant, mais fournit également de nouveaux moyens pour la manipulation transparente de grands modèles de langage.
English
We introduce a new approach to systematically map features discovered by
sparse autoencoder across consecutive layers of large language models,
extending earlier work that examined inter-layer feature links. By using a
data-free cosine similarity technique, we trace how specific features persist,
transform, or first appear at each stage. This method yields granular flow
graphs of feature evolution, enabling fine-grained interpretability and
mechanistic insights into model computations. Crucially, we demonstrate how
these cross-layer feature maps facilitate direct steering of model behavior by
amplifying or suppressing chosen features, achieving targeted thematic control
in text generation. Together, our findings highlight the utility of a causal,
cross-layer interpretability framework that not only clarifies how features
develop through forward passes but also provides new means for transparent
manipulation of large language models.Summary
AI-Generated Summary