탁월한 추론 행동과 그 발견 방법: 추론 과정의 비지도적 발견
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process
December 30, 2025
저자: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI
초록
최근 대규모 언어 모델(LLM)의 추론 능력이 향상되고 있지만, 추론 과정에서의 내부 메커니즘은 아직 충분히 연구되지 않았다. 기존 접근법들은 단어 수준에서 인간이 정의한 개념(예: 과도 사고, 성찰)에 의존하여 지도 방식으로 추론을 분석하는 경우가 많았다. 그러나 이러한 방법은 잠재적 추론 행동의 전체 스펙트럼을 포착하는 것이 불가능하며, 많은 행동들이 토큰 공간에서 정의하기 어렵기 때문에 한계가 있다. 본 연구에서는 별개의 추론 행동을 인코딩하는 활성화 공간 내 방향으로 정의하는 '추론 벡터'를 발견하기 위한 비지도 프레임워크(RISE: Reasoning behavior Interpretability via Sparse auto-Encoder)를 제안한다. 생각의 연쇄(chain-of-thought) 추적을 문장 수준의 '단계'로 분할하고 단계별 활성화에 대해 희소 오토인코더(SAE)를 학습함으로써, 성찰이나 백트래킹과 같은 해석 가능한 행동에 해당하는 분리된 특징을 발견한다. 시각화 및 클러스터링 분석은 이러한 행동들이 디코더 열 공간에서 분리 가능한 영역을 점유함을 보여준다. 더 나아가, SAE에서 도출된 벡터에 대한 표적 개입은 재학습 없이 특정 추론 행동을 제어 가능하게 증폭하거나 억제하여 추론 궤적을 변경할 수 있다. 행동 특정 분리 이외에도, SAE는 응답 길이와 같은 구조적 특성을 포착하여 길고 짧은 추론 흔적의 클러스터를 드러낸다. 더 흥미롭게도, SAE는 인간의 감독을 넘어서는 새로운 행동의 발견을 가능하게 한다. 우리는 SAE 디코더 공간에서 신뢰도 관련 벡터를 식별함으로써 응답 신뢰도를 제어할 수 있는 능력을 입증한다. 이러한 발견들은 LLM의 추론을 해석하고 제어 가능하게 조종하는 데 비지도 잠재 발견의 잠재력을 강조한다.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.