ChatPaper.aiChatPaper

Следовательно, я существую. Я мыслю.

Therefore I am. I Think

April 2, 2026
Авторы: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani
cs.AI

Аннотация

Мы исследуем вопрос: когда крупная языковая модель, способная к рассуждениям, делает выбор, думает ли она сначала, а затем принимает решение, или же сначала принимает решение, а затем обдумывает его? В данной статье мы представляем доказательства того, что обнаруживаемые, рано закодированные решения формируют цепочку рассуждений (chain-of-thought) в моделях. В частности, мы показываем, что простой линейный пробник успешно декодирует решения о вызове инструментов из активаций, возникающих до генерации, с очень высокой уверенностью, а в некоторых случаях — даже до генерации первого токена рассуждения. Каузальное подтверждение этому дает управление активациями: возмущение в направлении принятия решения приводит к увеличению продолжительности обдумывания и изменяет поведение во многих примерах (от 7% до 79% в зависимости от модели и теста). Поведенческий анализ также показывает, что когда управление меняет решение, процесс построения цепочки рассуждений часто начинает оправдывать это изменение, а не сопротивляться ему. В совокупности эти результаты позволяют предположить, что модели рассуждений могут кодировать выбор действий еще до того, как начинают вербально deliberровать.
English
We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.
PDF152April 4, 2026