ChatPaper.aiChatPaper

Fantastische Redeneergedragingen en Waar Ze te Vinden: Onbewust Toezicht op het Redeneerproces

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

December 30, 2025
Auteurs: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI

Samenvatting

Ondanks de groeiende redeneercapaciteiten van recente grote taalmodellen (LLM's) blijven hun interne mechanismen tijdens het redeneerproces onderbelicht. Eerdere benaderingen baseren zich vaak op door de mens gedefinieerde concepten (zoals overdenken, reflectie) op woordniveau om redeneren op een supervised manier te analyseren. Deze methoden zijn echter beperkt, omdat het onhaalbaar is om het volledige spectrum van potentiële redeneergedragingen vast te leggen, waarvan vele moeilijk te definiëren zijn in de token-ruimte. In dit werk stellen we een unsupervised raamwerk voor (genaamd RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) voor het ontdekken van redeneervectoren, die wij definiëren als richtingen in de activatieruimte die afzonderlijke redeneergedragingen coderen. Door chain-of-thought-sporen op te delen in zin-niveau 'stappen' en sparse auto-encoders (SAE's) te trainen op stap-niveau activaties, onthullen we ontvlochten kenmerken die corresponderen met interpreteerbare gedragingen zoals reflectie en backtracking. Visualisatie- en clusteranalyses tonen aan dat deze gedragingen afzonderlijke regio's innemen in de decoder-kolomruimte. Bovendien kunnen gerichte interventies op SAE-afgeleide vectoren specifieke redeneergedragingen controleerbaar versterken of onderdrukken, waardoor inferentietrajecten veranderen zonder hertraining. Naast gedragsspecifieke ontvlechting vangen SAE's structurele eigenschappen op, zoals responslengte, wat clusters van lange versus korte redeneersporen onthult. Interessanter is dat SAE's de ontdekking van nieuwe gedragingen mogelijk maken, voorbij menselijke supervisie. We demonstreren het vermogen om de responsbetrouwbaarheid te controleren door betrouwbaarheidsgerelateerde vectoren in de SAE-decoderruimte te identificeren. Deze bevindingen onderstrepen het potentieel van unsupervised latente ontdekking voor zowel het interpreteren als het controleerbaar sturen van redeneren in LLM's.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
PDF123January 4, 2026