Lo He Cubierto Todas las Bases Aquí: Interpretación de Características de Razonamiento en Modelos de Lenguaje de Gran Escala mediante Autoencoders Dispersos
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
March 24, 2025
Autores: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en el procesamiento del lenguaje natural. Los avances recientes han llevado al desarrollo de una nueva clase de LLMs de razonamiento; por ejemplo, el modelo de código abierto DeepSeek-R1 ha alcanzado un rendimiento de vanguardia al integrar pensamiento profundo y razonamiento complejo. A pesar de estas capacidades impresionantes, los mecanismos internos de razonamiento de dichos modelos siguen sin explorarse. En este trabajo, empleamos Autoencoders Dispersos (SAEs, por sus siglas en inglés), un método para aprender una descomposición dispersa de las representaciones latentes de una red neuronal en características interpretables, con el fin de identificar las características que impulsan el razonamiento en la serie de modelos DeepSeek-R1. Primero, proponemos un enfoque para extraer "características de razonamiento" candidatas a partir de las representaciones de los SAEs. Validamos estas características mediante análisis empírico y métodos de interpretabilidad, demostrando su correlación directa con las habilidades de razonamiento del modelo. De manera crucial, demostramos que la manipulación sistemática de estas características mejora el rendimiento del razonamiento, ofreciendo la primera explicación mecanicista del razonamiento en los LLMs. El código está disponible en https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural
language processing. Recent advances have led to the developing of a new class
of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved
state-of-the-art performance by integrating deep thinking and complex
reasoning. Despite these impressive capabilities, the internal reasoning
mechanisms of such models remain unexplored. In this work, we employ Sparse
Autoencoders (SAEs), a method to learn a sparse decomposition of latent
representations of a neural network into interpretable features, to identify
features that drive reasoning in the DeepSeek-R1 series of models. First, we
propose an approach to extract candidate ''reasoning features'' from SAE
representations. We validate these features through empirical analysis and
interpretability methods, demonstrating their direct correlation with the
model's reasoning abilities. Crucially, we demonstrate that steering these
features systematically enhances reasoning performance, offering the first
mechanistic account of reasoning in LLMs. Code available at
https://github.com/AIRI-Institute/SAE-ReasoningSummary
AI-Generated Summary