ChatPaper.aiChatPaper

Ik Heb Alle Bases Hier Gedekt: Het Interpreteren van Redeneerkenmerken in Grote Taalmodellen via Sparse Autoencoders

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

March 24, 2025
Auteurs: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke successen geboekt in natuurlijke taalverwerking. Recente vooruitgang heeft geleid tot de ontwikkeling van een nieuwe klasse van redeneer-LLMs; bijvoorbeeld heeft het open-source model DeepSeek-R1 state-of-the-art prestaties bereikt door diep denken en complex redeneren te integreren. Ondanks deze indrukwekkende capaciteiten blijven de interne redeneermechanismen van dergelijke modellen onontgonnen. In dit werk gebruiken we Sparse Autoencoders (SAEs), een methode om een sparse decompositie van latente representaties van een neuraal netwerk in interpreteerbare kenmerken te leren, om kenmerken te identificeren die het redeneren in de DeepSeek-R1-serie van modellen aansturen. Eerst stellen we een aanpak voor om kandidaat-'redeneerkenmerken' uit SAE-representaties te extraheren. We valideren deze kenmerken door empirische analyse en interpreteerbaarheidsmethoden, waarbij we hun directe correlatie met de redeneervaardigheden van het model aantonen. Cruciaal is dat we aantonen dat het sturen van deze kenmerken systematisch de redeneerprestaties verbetert, wat het eerste mechanistische inzicht biedt in redeneren in LLMs. Code beschikbaar op https://github.com/AIRI-Institute/SAE-Reasoning.
English
Large Language Models (LLMs) have achieved remarkable success in natural language processing. Recent advances have led to the developing of a new class of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved state-of-the-art performance by integrating deep thinking and complex reasoning. Despite these impressive capabilities, the internal reasoning mechanisms of such models remain unexplored. In this work, we employ Sparse Autoencoders (SAEs), a method to learn a sparse decomposition of latent representations of a neural network into interpretable features, to identify features that drive reasoning in the DeepSeek-R1 series of models. First, we propose an approach to extract candidate ''reasoning features'' from SAE representations. We validate these features through empirical analysis and interpretability methods, demonstrating their direct correlation with the model's reasoning abilities. Crucially, we demonstrate that steering these features systematically enhances reasoning performance, offering the first mechanistic account of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning

Summary

AI-Generated Summary

PDF1182March 25, 2025