ChatPaper.aiChatPaper

Außergewöhnliche Denkprozesse und wo sie zu finden sind: Unüberwachte Entdeckung des Schlussfolgerungsprozesses

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

December 30, 2025
papers.authors: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI

papers.abstract

Trotz der wachsenden Fähigkeiten jüngster großer Sprachmodelle (LLMs) zum logischen Schlussfolgern bleiben ihre internen Mechanismen während des Denkprozesses weitgehend unerforscht. Bisherige Ansätze stützen sich oft auf menschlich definierte Konzepte (z. B. Überdenken, Reflexion) auf Wortebene, um das Denken auf überwachte Weise zu analysieren. Solche Methoden sind jedoch begrenzt, da es nicht praktikabel ist, das gesamte Spektrum potenzieller Denkweisen zu erfassen, von denen viele schwer im Token-Raum zu definieren sind. In dieser Arbeit schlagen wir einen unüberwachten Rahmen vor (namens RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) zur Entdeckung von Reasoning-Vektoren, die wir als Richtungen im Aktivierungsraum definieren, die unterschiedliche Denkweisen kodieren. Indem wir Chain-of-Thought-Spuren in satzweise 'Schritte' unterteilen und Sparse Auto-Encoder (SAEs) auf Schritt-für-Schritt-Aktivierungen trainieren, entschlüsseln wir entflochtene Merkmale, die interpretierbaren Verhaltensweisen wie Reflexion und Backtracking entsprechen. Visualisierungs- und Clusteranalysen zeigen, dass diese Verhaltensweisen trennbare Regionen im Dekodierer-Spaltenraum einnehmen. Darüber hinaus können gezielte Eingriffe in SAE-abgeleitete Vektoren bestimmte Denkweisen kontrolliert verstärken oder unterdrücken und so die Inferenztrajektorien verändern, ohne dass ein Neutraining erforderlich ist. Über verhaltensspezifische Entflechtung hinaus erfassen SAEs strukturelle Eigenschaften wie die Antwortlänge und offenbaren Cluster von langen versus kurzen Denkspuren. Noch interessanter ist, dass SAEs die Entdeckung neuartiger Verhaltensweisen jenseits menschlicher Überwachung ermöglichen. Wir demonstrieren die Fähigkeit, die Antwortkonfidenz zu steuern, indem wir konfidenzbezogene Vektoren im SAE-Dekodiererraum identifizieren. Diese Ergebnisse unterstreichen das Potenzial unüberwachter latenter Entdeckung sowohl für die Interpretation als auch für die kontrollierte Steuerung des Denkens in LLMs.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
PDF61January 2, 2026