Следовательно, я существую. Я мыслю.

Аннотация

Мы исследуем вопрос: когда крупная языковая модель, способная к рассуждениям, делает выбор, думает ли она сначала, а затем принимает решение, или же сначала принимает решение, а затем обдумывает его? В данной статье мы представляем доказательства того, что обнаруживаемые, рано закодированные решения формируют цепочку рассуждений (chain-of-thought) в моделях. В частности, мы показываем, что простой линейный пробник успешно декодирует решения о вызове инструментов из активаций, возникающих до генерации, с очень высокой уверенностью, а в некоторых случаях — даже до генерации первого токена рассуждения. Каузальное подтверждение этому дает управление активациями: возмущение в направлении принятия решения приводит к увеличению продолжительности обдумывания и изменяет поведение во многих примерах (от 7% до 79% в зависимости от модели и теста). Поведенческий анализ также показывает, что когда управление меняет решение, процесс построения цепочки рассуждений часто начинает оправдывать это изменение, а не сопротивляться ему. В совокупности эти результаты позволяют предположить, что модели рассуждений могут кодировать выбор действий еще до того, как начинают вербально deliberровать.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Следовательно, я существую. Я мыслю.

Therefore I am. I Think

Аннотация

Support