ChatPaper.aiChatPaper

J'ai couvert toutes les bases ici : Interprétation des caractéristiques de raisonnement dans les grands modèles de langage via des autoencodeurs parcimonieux

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

March 24, 2025
Auteurs: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Résumé

Les grands modèles de langage (LLM) ont obtenu un succès remarquable dans le traitement du langage naturel. Les avancées récentes ont conduit au développement d'une nouvelle classe de LLM spécialisés dans le raisonnement ; par exemple, le modèle open-source DeepSeek-R1 a atteint des performances de pointe en intégrant une pensée profonde et un raisonnement complexe. Malgré ces capacités impressionnantes, les mécanismes internes de raisonnement de ces modèles restent inexplorés. Dans ce travail, nous utilisons des autoencodeurs parcimonieux (SAE), une méthode permettant d'apprendre une décomposition parcimonieuse des représentations latentes d'un réseau neuronal en caractéristiques interprétables, pour identifier les caractéristiques qui pilotent le raisonnement dans la série de modèles DeepSeek-R1. Tout d'abord, nous proposons une approche pour extraire des « caractéristiques de raisonnement » candidates à partir des représentations SAE. Nous validons ces caractéristiques par des analyses empiriques et des méthodes d'interprétabilité, démontrant leur corrélation directe avec les capacités de raisonnement du modèle. De manière cruciale, nous montrons que la manipulation systématique de ces caractéristiques améliore les performances en raisonnement, offrant ainsi la première explication mécaniste du raisonnement dans les LLM. Le code est disponible à l'adresse suivante : https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural language processing. Recent advances have led to the developing of a new class of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved state-of-the-art performance by integrating deep thinking and complex reasoning. Despite these impressive capabilities, the internal reasoning mechanisms of such models remain unexplored. In this work, we employ Sparse Autoencoders (SAEs), a method to learn a sparse decomposition of latent representations of a neural network into interpretable features, to identify features that drive reasoning in the DeepSeek-R1 series of models. First, we propose an approach to extract candidate ''reasoning features'' from SAE representations. We validate these features through empirical analysis and interpretability methods, demonstrating their direct correlation with the model's reasoning abilities. Crucially, we demonstrate that steering these features systematically enhances reasoning performance, offering the first mechanistic account of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning

Summary

AI-Generated Summary

PDF1182March 25, 2025