ICA Lens: Interpretation von Sprachmodellen ohne Training eines weiteren Wörterbuchs

Zusammenfassung

Das Auffinden interpretierbarer Richtungen in Sprachmodell-Repräsentationen ist entscheidend für das Verständnis und die Kontrolle des Modellverhaltens. Spärliche Autoencoder (SAEs) sind zum Standardwerkzeug für diesen Zweck geworden, aber ihre Verwendung als standardmäßige erste Linse erfordert oft das Trainieren, Speichern und Evaluieren großer übervollständiger Wörterbücher. Dieser Engpass schränkt die schnelle Exploration ein und wirft eine grundlegende Frage auf: Wie viel interpretierbare Struktur ist bereits aus der Aktivierungsgeometrie sichtbar, bevor ein weiteres neuronales Wörterbuch trainiert wird? Unsere Intuition ist einfach: Viele interpretierbare Richtungen sind token-selektiv, und diese Richtungen sollten weniger gaußsch aussehen als zufällige Richtungen. Daher greifen wir auf die unabhängige Komponentenanalyse (ICA) zurück, eine klassische Methode zur Auffindung nicht-gaußscher Richtungen, als kompakte Linse für die Interpretierbarkeit von Sprachmodellen. Wir stellen fest, dass ICA für die LLM-Interpretierbarkeit unterschätzt wurde, da frühere Anwendungen oft auf Standard-ICA-Implementierungen beruhten, die bei LLM-Aktivierungen instabil sind und denen systematische Werkzeuge zur Inspektion und Evaluierung der gefundenen Richtungen fehlten. Um diese Lücken zu schließen, führen wir ICALens ein, den ersten praktischen Arbeitsablauf für eine stabile, effiziente und nachvollziehbare ICA-Analyse von LLM-Repräsentationen. Es kombiniert eine optimierte GPU-parallele FastICA-Pipeline mit LLM-spezifischen Stabilitätsrezepten und einer verbesserten Anpassungsdiagnostik, wodurch eine effiziente und zuverlässige schichtweise Analyse ermöglicht wird. Für GPT-2 Small, Gemma 2 2B und Qwen 3.5 2B Base stellt ICALens effizient kompakte, für Menschen interpretierbare Richtungen ohne schichtweises gradientenbasiertes Wörterbuchtraining bereit. Auf SAEBench ist ICA konkurrenzfähig mit öffentlichen SAEs beim spärlichen Probing und übertrifft diese bei gezielter Sondenperturbation mit kleinen bis mittleren Budgets. Diese Ergebnisse deuten darauf hin, dass ICA nicht als schwache Basislinie betrachtet werden sollte, sondern als effiziente und komplementäre erste Linse zur Erkundung von Sprachmodell-Repräsentationen.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.