ここですべての基盤をカバーしました:スパースオートエンコーダによる大規模言語モデルの推論機能の解釈
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders
March 24, 2025
著者: Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
要旨
大規模言語モデル(LLMs)は、自然言語処理において顕著な成功を収めてきました。最近の進展により、新しいクラスの推論LLMsが開発されています。例えば、オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで、最先端の性能を達成しました。これらの印象的な能力にもかかわらず、そのようなモデルの内部推論メカニズムは未解明のままです。本研究では、Sparse Autoencoders(SAEs)を用いて、ニューラルネットワークの潜在表現を解釈可能な特徴に分解する手法を採用し、DeepSeek-R1シリーズのモデルにおける推論を駆動する特徴を特定します。まず、SAE表現から「推論特徴」の候補を抽出するアプローチを提案します。これらの特徴を実証分析と解釈可能性手法を通じて検証し、モデルの推論能力との直接的な相関を実証します。特に、これらの特徴を体系的に制御することで推論性能が向上することを示し、LLMsにおける推論のメカニズムを初めて説明します。コードはhttps://github.com/AIRI-Institute/SAE-Reasoningで公開されています。
English
Large Language Models (LLMs) have achieved remarkable success in natural
language processing. Recent advances have led to the developing of a new class
of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved
state-of-the-art performance by integrating deep thinking and complex
reasoning. Despite these impressive capabilities, the internal reasoning
mechanisms of such models remain unexplored. In this work, we employ Sparse
Autoencoders (SAEs), a method to learn a sparse decomposition of latent
representations of a neural network into interpretable features, to identify
features that drive reasoning in the DeepSeek-R1 series of models. First, we
propose an approach to extract candidate ''reasoning features'' from SAE
representations. We validate these features through empirical analysis and
interpretability methods, demonstrating their direct correlation with the
model's reasoning abilities. Crucially, we demonstrate that steering these
features systematically enhances reasoning performance, offering the first
mechanistic account of reasoning in LLMs. Code available at
https://github.com/AIRI-Institute/SAE-ReasoningSummary
AI-Generated Summary