Analyser le Flux de Caractéristiques pour Améliorer l'Interprétation et le Pilotage dans les Modèles de LangueAnalyze Feature Flow to Enhance Interpretation and Steering in Language
Models
Nous introduisons une nouvelle approche pour cartographier systématiquement les caractéristiques découvertes par un autoencodeur parcimonieux à travers des couches consécutives de grands modèles de langage, étendant les travaux antérieurs qui ont examiné les liens entre les caractéristiques inter-couches. En utilisant une technique de similarité cosinus sans données, nous suivons comment des caractéristiques spécifiques persistent, se transforment ou apparaissent pour la première fois à chaque étape. Cette méthode produit des graphiques de flux granulaires de l'évolution des caractéristiques, permettant une interprétabilité fine et des aperçus mécanistes des calculs du modèle. De manière cruciale, nous démontrons comment ces cartes de caractéristiques entre les couches facilitent la direction directe du comportement du modèle en amplifiant ou en supprimant des caractéristiques choisies, atteignant un contrôle thématique ciblé dans la génération de texte. Ensemble, nos résultats mettent en lumière l'utilité d'un cadre d'interprétabilité causal entre les couches qui non seulement clarifie comment les caractéristiques se développent à travers les passes en avant, mais fournit également de nouveaux moyens pour la manipulation transparente de grands modèles de langage.