ChatPaper.aiChatPaper

Фантастические проявления логического мышления и где их найти: неконтролируемое обнаружение процесса рассуждений

Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

December 30, 2025
Авторы: Zhenyu Zhang, Shujian Zhang, John Lambert, Wenxuan Zhou, Zhangyang Wang, Mingqing Chen, Andrew Hard, Rajiv Mathews, Lun Wang
cs.AI

Аннотация

Несмотря на растущие способности к рассуждению современных больших языковых моделей (LLM), их внутренние механизмы в процессе рассуждения остаются малоизученными. Существующие подходы часто опираются на заданные человеком концепции (например, "чрезмерное обдумывание", "рефлексия") на уровне слов для анализа рассуждений контролируемым образом. Однако такие методы ограничены, поскольку невозможно охватить весь спектр потенциальных поведений при рассуждении, многие из которых сложно определить в токенном пространстве. В данной работе мы предлагаем неконтролируемый фреймворк (а именно, RISE: Interpretability поведения рассуждений через разреженный автоэнкодер) для обнаружения векторов рассуждений, которые мы определяем как направления в пространстве активаций, кодирующие различные типы поведения при рассуждении. Сегментируя трассы "цепочки мыслей" на предложенческие "шаги" и обучая разреженные автоэнкодеры (SAE) на активациях уровня шага, мы выявляем разъединенные признаки, соответствующие интерпретируемым типам поведения, таким как рефлексия и возврат. Визуализация и кластерный анализ показывают, что эти поведения занимают разделимые области в пространстве декодера. Более того, целевые вмешательства в векторы, полученные из SAE, позволяют управляемо усиливать или подавлять конкретные типы поведения при рассуждении, изменяя траектории вывода без переобучения. Помимо специфичного для поведения разъединения, SAE захватывают структурные свойства, такие как длина ответа, выявляя кластеры длинных и коротких трасс рассуждений. Что еще интереснее, SAE позволяют обнаруживать новые типы поведения без контроля со стороны человека. Мы демонстрируем возможность управления уверенностью ответа путем идентификации векторов, связанных с уверенностью, в пространстве декодера SAE. Эти результаты подчеркивают потенциал неконтролируемого обнаружения латентных признаков как для интерпретации, так и для управляемого направления рассуждений в LLM.
English
Despite the growing reasoning capabilities of recent large language models (LLMs), their internal mechanisms during the reasoning process remain underexplored. Prior approaches often rely on human-defined concepts (e.g., overthinking, reflection) at the word level to analyze reasoning in a supervised manner. However, such methods are limited, as it is infeasible to capture the full spectrum of potential reasoning behaviors, many of which are difficult to define in token space. In this work, we propose an unsupervised framework (namely, RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) for discovering reasoning vectors, which we define as directions in the activation space that encode distinct reasoning behaviors. By segmenting chain-of-thought traces into sentence-level 'steps' and training sparse auto-encoders (SAEs) on step-level activations, we uncover disentangled features corresponding to interpretable behaviors such as reflection and backtracking. Visualization and clustering analyses show that these behaviors occupy separable regions in the decoder column space. Moreover, targeted interventions on SAE-derived vectors can controllably amplify or suppress specific reasoning behaviors, altering inference trajectories without retraining. Beyond behavior-specific disentanglement, SAEs capture structural properties such as response length, revealing clusters of long versus short reasoning traces. More interestingly, SAEs enable the discovery of novel behaviors beyond human supervision. We demonstrate the ability to control response confidence by identifying confidence-related vectors in the SAE decoder space. These findings underscore the potential of unsupervised latent discovery for both interpreting and controllably steering reasoning in LLMs.
PDF61January 2, 2026