Я охватил все аспекты: интерпретация признаков рассуждения в крупных языковых моделях с помощью разреженных автокодировщиковI Have Covered All the Bases Here: Interpreting Reasoning Features in
Large Language Models via Sparse Autoencoders
Крупные языковые модели (LLMs) достигли значительных успехов в обработке естественного языка. Последние достижения привели к разработке нового класса моделей, ориентированных на рассуждения; например, открытая модель DeepSeek-R1 достигла наилучших результатов, интегрируя глубокое мышление и сложные рассуждения. Несмотря на эти впечатляющие возможности, внутренние механизмы рассуждений таких моделей остаются малоизученными. В данной работе мы используем разреженные автоэнкодеры (Sparse Autoencoders, SAEs) — метод, позволяющий изучать разреженное разложение латентных представлений нейронной сети на интерпретируемые признаки, — для выявления признаков, которые управляют рассуждениями в моделях серии DeepSeek-R1. Сначала мы предлагаем подход для извлечения кандидатов на «признаки рассуждения» из представлений SAE. Мы проверяем эти признаки с помощью эмпирического анализа и методов интерпретируемости, демонстрируя их прямую связь со способностями модели к рассуждениям. Важно отметить, что мы показываем, что управление этими признаками систематически улучшает производительность рассуждений, предлагая первое механистическое объяснение рассуждений в LLMs. Код доступен по адресу: https://github.com/AIRI-Institute/SAE-Reasoning.