素晴らしい推論行動とその発見方法:推論プロセスの教師なし発見
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process
December 30, 2025
著者: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI
要旨
近年の大規模言語モデル(LLM)の推論能力は向上しているものの、推論プロセスにおける内部メカニズムは未解明な部分が多い。従来のアプローチでは、単語レベルで人間が定義した概念(例:過剰推論、内省)を用いて、教師あり手法で推論を分析することが多かった。しかし、潜在的な推論行動の全容を捉えることは不可能であり、多くの行動はトークン空間で定義することが困難であるため、こうした手法には限界がある。本研究では、推論ベクトル(異なる推論行動を符号化する活性化空間内の方向性と定義)を発見するための教師なしフレームワーク(RISE: Reasoning behavior Interpretability via Sparse auto-Encoder)を提案する。連鎖思考(chain-of-thought)の軌跡を文レベルの「ステップ」に分割し、ステップ単位の活性化に対してスパースオートエンコーダ(SAE)を学習させることで、内省やバックトラッキングといった解釈可能な行動に対応する分離された特徴を抽出する。可視化とクラスタリング分析により、これらの行動がデコーダ列空間内で分離可能な領域を占めることが示される。さらに、SAEから得られたベクトルに対する標的介入により、特定の推論行動を制御的に増幅または抑制でき、再学習なしで推論軌道を変更できる。行動特異的な分離に加えて、SAEは応答長などの構造的特性も捉え、長い推論軌跡と短い推論軌跡のクラスタを明らかにする。より興味深いことに、SAEは人間の監督を超えた新規行動の発見を可能にする。SAEデコーダ空間内の信頼度関連ベクトルを同定することで、応答の信頼度を制御する能力を実証する。これらの発見は、教師なし潜在発見がLLMの推論を解釈し制御する上で有効である可能性を示唆している。
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.