ここですべての基盤をカバーしました:スパースオートエンコーダによる大規模言語モデルの推論機能の解釈I Have Covered All the Bases Here: Interpreting Reasoning Features in
Large Language Models via Sparse Autoencoders
大規模言語モデル(LLMs)は、自然言語処理において顕著な成功を収めてきました。最近の進展により、新しいクラスの推論LLMsが開発されています。例えば、オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで、最先端の性能を達成しました。これらの印象的な能力にもかかわらず、そのようなモデルの内部推論メカニズムは未解明のままです。本研究では、Sparse Autoencoders(SAEs)を用いて、ニューラルネットワークの潜在表現を解釈可能な特徴に分解する手法を採用し、DeepSeek-R1シリーズのモデルにおける推論を駆動する特徴を特定します。まず、SAE表現から「推論特徴」の候補を抽出するアプローチを提案します。これらの特徴を実証分析と解釈可能性手法を通じて検証し、モデルの推論能力との直接的な相関を実証します。特に、これらの特徴を体系的に制御することで推論性能が向上することを示し、LLMsにおける推論のメカニズムを初めて説明します。コードはhttps://github.com/AIRI-Institute/SAE-Reasoningで公開されています。