Lente ICA: Interpretando Modelos de Linguagem Sem Treinar Outro Dicionário

Resumo

Encontrar direções interpretáveis em representações de modelos de linguagem é crucial para compreender e controlar o comportamento do modelo. Autoencoders esparsos (SAEs) tornaram-se a ferramenta padrão para esse fim, mas utilizá-los como primeira lente padrão frequentemente exige treinar, armazenar e avaliar grandes dicionários supercompletos. Esse gargalo limita a exploração rápida e levanta uma questão fundamental: quanta estrutura interpretável já é visível a partir da geometria de ativação antes de treinar outro dicionário neural? Nossa intuição é simples: muitas direções interpretáveis são seletivas em tokens, e essas direções devem parecer menos gaussianas do que direções aleatórias. Portanto, revisitamos a análise de componentes independentes (ICA), um método clássico para encontrar direções não gaussianas, como uma lente compacta para a interpretabilidade de modelos de linguagem. Descobrimos que a ICA tem sido subestimada para interpretabilidade de LLMs, porque usos anteriores frequentemente dependiam de implementações prontas de ICA que são frágeis em ativações de LLMs e careciam de ferramentas sistemáticas para inspecionar e avaliar as direções recuperadas. Para superar essas lacunas, introduzimos o ICALens, o primeiro fluxo de trabalho prático para análise de ICA estável, eficiente e auditável de representações de LLMs. Ele combina um pipeline FastICA paralelo em GPU otimizado com receitas de estabilidade específicas para LLMs e diagnósticos de ajuste melhores, permitindo uma análise eficiente e confiável camada por camada. Em GPT-2 Small, Gemma 2 2B e Qwen 3.5 2B Base, o ICALens recupera eficientemente direções compactas e interpretáveis por humanos sem treinamento de dicionários baseado em gradiente por camada. No SAEBench, a ICA é competitiva com SAEs públicos em sondagem esparsa e os supera em perturbação direcionada de sondas sob orçamentos pequenos a médios. Esses resultados sugerem que a ICA não deve ser vista como uma linha de base fraca, mas como uma primeira lente eficiente e complementar para explorar representações de modelos de linguagem.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.