ICA-линза: интерпретация языковых моделей без обучения другого словаря

Аннотация

Поиск интерпретируемых направлений в представлениях языковых моделей имеет решающее значение для понимания и контроля их поведения. Разреженные автоэнкодеры (SAE) стали стандартным инструментом для этой цели, но их использование в качестве первого подхода по умолчанию часто требует обучения, хранения и оценки больших словарей с избыточной полнотой. Это узкое место ограничивает быстрые исследования и поднимает фундаментальный вопрос: сколько интерпретируемой структуры уже видно из геометрии активаций до обучения очередного нейронного словаря? Наша интуиция проста: многие интерпретируемые направления избирательны по отношению к токенам, и такие направления должны выглядеть менее гауссовыми, чем случайные. Поэтому мы возвращаемся к независимому компонентному анализу (ICA) — классическому методу поиска негауссовых направлений — как к компактному инструменту для интерпретируемости языковых моделей. Мы обнаружили, что ICA недооценен для интерпретируемости LLM, поскольку предыдущие применения часто опирались на готовые реализации ICA, которые нестабильны на активациях LLM и не имели систематических инструментов для проверки и оценки восстановленных направлений. Чтобы устранить эти пробелы, мы представляем ICALens — первый практический рабочий процесс для стабильного, эффективного и проверяемого ICA-анализа представлений LLM. Он сочетает оптимизированный конвейер GPU-параллельного FastICA со стабильностью, специфичной для LLM, и улучшенными диагностическими метриками подгонки, что позволяет проводить эффективный и надежный послойный анализ. На GPT-2 Small, Gemma 2 2B и Qwen 3.5 2B Base ICALens эффективно восстанавливает компактные, интерпретируемые человеком направления без градиентного обучения словарей для каждого слоя. В SAEBench ICA конкурентоспособен с публичными SAE в задаче разреженного пробирования и превосходит их в целевом возмущении пробирования при малых и средних бюджетах. Эти результаты показывают, что ICA не следует рассматривать как слабый базовый метод, а скорее как эффективный и дополняющий первый инструмент для исследования представлений языковых моделей.

English

Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.