Lentille ICA : Interpréter les modèles de langage sans entraîner un autre dictionnaire

Résumé

Trouver des directions interprétables dans les représentations des modèles de langue est essentiel pour comprendre et contrôler le comportement des modèles. Les autoencodeurs parcimonieux (SAE) sont devenus l'outil standard à cet effet, mais les utiliser comme premier prisme par défaut nécessite souvent l'entraînement, le stockage et l'évaluation de grands dictionnaires surcomplets. Ce goulot d'étranglement limite l'exploration rapide et soulève une question fondamentale : quelle part de structure interprétable est déjà visible à partir de la géométrie des activations avant d'entraîner un nouveau dictionnaire neuronal ? Notre intuition est simple : de nombreuses directions interprétables sont sélectives sur les tokens, et ces directions devraient sembler moins gaussiennes que des directions aléatoires. Nous revisitons donc l'analyse en composantes indépendantes (ICA), une méthode classique pour trouver des directions non gaussiennes, comme un prisme compact pour l'interprétabilité des modèles de langue. Nous constatons que l'ICA a été sous-estimée pour l'interprétabilité des LLM, car les utilisations antérieures reposaient souvent sur des implémentations d'ICA prêtes à l'emploi, fragiles sur les activations des LLM, et manquaient d'outils systématiques pour inspecter et évaluer les directions récupérées. Pour combler ces lacunes, nous introduisons ICALens, le premier workflow pratique pour une analyse ICA stable, efficace et vérifiable des représentations des LLM. Il combine un pipeline FastICA parallélisé sur GPU optimisé avec des recettes de stabilité spécifiques aux LLM et de meilleurs diagnostics d'ajustement, permettant une analyse par couche efficace et fiable. Sur GPT-2 Small, Gemma 2 2B et Qwen 3.5 2B Base, ICALens récupère efficacement des directions compactes et interprétables par l'humain sans entraînement de dictionnaire basé sur le gradient par couche. Sur SAEBench, l'ICA est compétitive avec les SAE publics dans le sondage parcimonieux et les surpasse dans la perturbation ciblée par sondage avec des budgets petits à moyens. Ces résultats suggèrent que l'ICA ne devrait pas être considérée comme une baseline faible, mais comme un premier prisme efficace et complémentaire pour explorer les représentations des modèles de langue.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.