ICA Lens: Interpretación de Modelos de Lenguaje sin Entrenar Otro Diccionario

Resumen

Encontrar direcciones interpretables en las representaciones de modelos de lenguaje es fundamental para comprender y controlar el comportamiento del modelo. Los autoencoders dispersos (SAEs) se han convertido en la herramienta estándar para este propósito, pero usarlos como la primera lente predeterminada a menudo requiere entrenar, almacenar y evaluar grandes diccionarios sobrecompletos. Este cuello de botella limita la exploración rápida y plantea una pregunta fundamental: ¿cuánta estructura interpretable ya es visible a partir de la geometría de las activaciones antes de entrenar otro diccionario neuronal? Nuestra intuición es simple: muchas direcciones interpretables son selectivas respecto a los tokens, y estas direcciones deberían parecer menos gaussianas que las direcciones aleatorias. Por lo tanto, retomamos el análisis de componentes independientes (ICA), un método clásico para encontrar direcciones no gaussianas, como una lente compacta para la interpretabilidad de modelos de lenguaje. Descubrimos que el ICA ha sido subestimado para la interpretabilidad de LLM, porque los usos previos a menudo dependían de implementaciones de ICA listas para usar que son frágiles en las activaciones de LLM y carecían de herramientas sistemáticas para inspeccionar y evaluar las direcciones recuperadas. Para salvar estas brechas, presentamos ICALens, el primer flujo de trabajo práctico para un análisis ICA estable, eficiente y auditable de representaciones de LLM. Combina un pipeline FastICA paralelo optimizado en GPU con recetas de estabilidad específicas para LLM y mejores diagnósticos de ajuste, lo que permite un análisis eficiente y fiable por capas. En GPT-2 Small, Gemma 2 2B y Qwen 3.5 2B Base, ICALens recupera de manera eficiente direcciones compactas e interpretables por humanos sin necesidad de entrenamiento de diccionarios basado en gradientes por capa. En SAEBench, ICA es competitivo con SAEs públicos en sondaje disperso y los supera en perturbación dirigida de sondas bajo presupuestos pequeños o medianos. Estos resultados sugieren que el ICA no debe considerarse como una línea base débil, sino como una lente eficiente y complementaria para explorar las representaciones de modelos de lenguaje.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.