ChatPaper.aiChatPaper

Comportements de raisonnement remarquables et où les trouver : Découverte non supervisée du processus de raisonnement

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

December 30, 2025
papers.authors: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI

papers.abstract

Malgré les capacités de raisonnement croissantes des grands modèles de langage (LLM) récents, leurs mécanismes internes durant le processus de raisonnement restent peu explorés. Les approches antérieures s'appuient souvent sur des concepts définis par l'homme (par exemple, la surréflexion, la réflexion) au niveau lexical pour analyser le raisonnement de manière supervisée. Cependant, ces méthodes sont limitées, car il est irréalisable de saisir l'ensemble du spectre des comportements de raisonnement potentiels, dont beaucoup sont difficiles à définir dans l'espace des tokens. Dans ce travail, nous proposons un cadre non supervisé (nommé RISE : *Reasoning behavior Interpretability via Sparse auto-Encoder*) pour découvrir des vecteurs de raisonnement, que nous définissons comme des directions dans l'espace d'activation qui codent des comportements de raisonnement distincts. En segmentant les traces de raisonnement chaîné en « étapes » au niveau de la phrase et en entraînant des auto-encodeurs épars (SAE) sur les activations au niveau de l'étape, nous mettons au jour des caractéristences désentrelacées correspondant à des comportements interprétables tels que la réflexion et le retour en arrière. Des analyses de visualisation et de clustering montrent que ces comportements occupent des régions séparables dans l'espace des colonnes du décodeur. De plus, des interventions ciblées sur les vecteurs dérivés des SAE peuvent amplifier ou supprimer de manière contrôlable des comportements de raisonnement spécifiques, modifiant ainsi les trajectoires d'inférence sans réentraînement. Au-delà du désentrelacement spécifique au comportement, les SAE capturent des propriétés structurelles telles que la longueur de la réponse, révélant des clusters de traces de raisonnement longues versus courtes. Plus intéressant encore, les SAE permettent la découverte de nouveaux comportements sans supervision humaine. Nous démontrons la capacité à contrôler la confiance de la réponse en identifiant des vecteurs liés à la confiance dans l'espace du décodeur du SAE. Ces résultats soulignent le potentiel de la découverte latente non supervisée à la fois pour interpréter et pour piloter de manière contrôlable le raisonnement des LLM.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
PDF61January 2, 2026