ICA-lens: Taalmodellen interpreteren zonder het trainen van een ander woordenboek

Samenvatting

Het vinden van interpreteerbare richtingen in representaties van taalmodellen is cruciaal voor het begrijpen en beheersen van modelgedrag. Sparse autoencoders (SAE's) zijn hiervoor de standaardtool geworden, maar het gebruik ervan als standaard eerste lens vereist vaak het trainen, opslaan en evalueren van grote overcomplete woordenboeken. Deze bottleneck beperkt snelle verkenning en roept een fundamentele vraag op: hoeveel interpreteerbare structuur is al zichtbaar vanuit de activatiegeometrie voordat er een nieuw neuraal woordenboek wordt getraind? Onze intuïtie is eenvoudig: veel interpreteerbare richtingen zijn selectief op tokens, en deze richtingen zouden minder Gaussiaans moeten lijken dan willekeurige richtingen. Daarom heroverwegen we onafhankelijke componentenanalyse (ICA), een klassieke methode voor het vinden van niet-Gaussiaanse richtingen, als een compacte lens voor de interpreteerbaarheid van taalmodellen. We ontdekken dat ICA wordt onderschat voor LLM-interpreteerbaarheid, omdat eerdere toepassingen vaak vertrouwden op kant-en-klare ICA-implementaties die breekbaar zijn op LLM-activaties en geen systematische hulpmiddelen hadden voor het inspecteren en evalueren van de teruggevonden richtingen. Om deze hiaten te overbruggen introduceren we ICALens, de eerste praktische workflow voor stabiele, efficiënte en controleerbare ICA-analyse van LLM-representaties. Het combineert een geoptimaliseerde GPU-parallelle FastICA-pijplijn met LLM-specifieke stabiliteitsrecepten en betere diagnostiek voor modelpassing, waardoor efficiënte en betrouwbare laagsgewijze analyse mogelijk wordt. Over GPT-2 Small, Gemma 2 2B en Qwen 3.5 2B Base heen herstelt ICALens efficiënt compacte, voor mensen interpreteerbare richtingen zonder per-laag gradient-gebaseerd woordenboektraining. Op SAEBench is ICA concurrerend met publieke SAE's in sparse probing en overtreft het hen in gerichte probe-perturbatie onder kleine tot middelgrote budgetten. Deze resultaten suggereren dat ICA niet moet worden gezien als een zwakke baseline, maar als een efficiënte en complementaire eerste lens voor het verkennen van representaties van taalmodellen.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.