ChatPaper.aiChatPaper

Eu Cobri Todas as Bases Aqui: Interpretando Características de Raciocínio em Modelos de Linguagem de Grande Escala por meio de Autoencoders Esparsos

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

March 24, 2025
Autores: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável no processamento de linguagem natural. Avanços recentes levaram ao desenvolvimento de uma nova classe de LLMs de raciocínio; por exemplo, o modelo de código aberto DeepSeek-R1 atingiu desempenho de ponta ao integrar pensamento profundo e raciocínio complexo. Apesar dessas capacidades impressionantes, os mecanismos internos de raciocínio desses modelos permanecem inexplorados. Neste trabalho, empregamos Autoencoders Esparsos (SAEs), um método para aprender uma decomposição esparsa das representações latentes de uma rede neural em características interpretáveis, para identificar as características que impulsionam o raciocínio na série de modelos DeepSeek-R1. Primeiro, propomos uma abordagem para extrair candidatos a "características de raciocínio" das representações dos SAEs. Validamos essas características por meio de análise empírica e métodos de interpretabilidade, demonstrando sua correlação direta com as habilidades de raciocínio do modelo. Crucialmente, mostramos que a manipulação sistemática dessas características melhora o desempenho do raciocínio, oferecendo a primeira explicação mecanicista do raciocínio em LLMs. Código disponível em https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural language processing. Recent advances have led to the developing of a new class of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved state-of-the-art performance by integrating deep thinking and complex reasoning. Despite these impressive capabilities, the internal reasoning mechanisms of such models remain unexplored. In this work, we employ Sparse Autoencoders (SAEs), a method to learn a sparse decomposition of latent representations of a neural network into interpretable features, to identify features that drive reasoning in the DeepSeek-R1 series of models. First, we propose an approach to extract candidate ''reasoning features'' from SAE representations. We validate these features through empirical analysis and interpretability methods, demonstrating their direct correlation with the model's reasoning abilities. Crucially, we demonstrate that steering these features systematically enhances reasoning performance, offering the first mechanistic account of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning

Summary

AI-Generated Summary

PDF1182March 25, 2025