Я охватил все аспекты: интерпретация признаков рассуждения в крупных языковых моделях с помощью разреженных автокодировщиков
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
March 24, 2025
Авторы: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Аннотация
Крупные языковые модели (LLMs) достигли значительных успехов в обработке естественного языка. Последние достижения привели к разработке нового класса моделей, ориентированных на рассуждения; например, открытая модель DeepSeek-R1 достигла наилучших результатов, интегрируя глубокое мышление и сложные рассуждения. Несмотря на эти впечатляющие возможности, внутренние механизмы рассуждений таких моделей остаются малоизученными. В данной работе мы используем разреженные автоэнкодеры (Sparse Autoencoders, SAEs) — метод, позволяющий изучать разреженное разложение латентных представлений нейронной сети на интерпретируемые признаки, — для выявления признаков, которые управляют рассуждениями в моделях серии DeepSeek-R1. Сначала мы предлагаем подход для извлечения кандидатов на «признаки рассуждения» из представлений SAE. Мы проверяем эти признаки с помощью эмпирического анализа и методов интерпретируемости, демонстрируя их прямую связь со способностями модели к рассуждениям. Важно отметить, что мы показываем, что управление этими признаками систематически улучшает производительность рассуждений, предлагая первое механистическое объяснение рассуждений в LLMs. Код доступен по адресу: https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural
language processing. Recent advances have led to the developing of a new class
of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved
state-of-the-art performance by integrating deep thinking and complex
reasoning. Despite these impressive capabilities, the internal reasoning
mechanisms of such models remain unexplored. In this work, we employ Sparse
Autoencoders (SAEs), a method to learn a sparse decomposition of latent
representations of a neural network into interpretable features, to identify
features that drive reasoning in the DeepSeek-R1 series of models. First, we
propose an approach to extract candidate ''reasoning features'' from SAE
representations. We validate these features through empirical analysis and
interpretability methods, demonstrating their direct correlation with the
model's reasoning abilities. Crucially, we demonstrate that steering these
features systematically enhances reasoning performance, offering the first
mechanistic account of reasoning in LLMs. Code available at
https://github.com/AIRI-Institute/SAE-ReasoningSummary
AI-Generated Summary