Portanto, existo. Penso.

Resumo

Consideramos a questão: quando um modelo de raciocínio de linguagem grande faz uma escolha, ele pensa primeiro e depois decide, ou decide primeiro e depois pensa? Neste artigo, apresentamos evidências de que decisões detectáveis, codificadas precocemente, moldam a cadeia de raciocínio (chain-of-thought) em modelos de raciocínio. Especificamente, mostramos que uma sonda linear simples decodifica com sucesso decisões de chamada de ferramentas a partir de ativações pré-geração com confiança muito alta e, em alguns casos, mesmo antes que um único token de raciocínio seja produzido. O direcionamento de ativações (activation steering) apoia isso causalmente: perturbar a direção da decisão leva a uma deliberação inflada e inverte o comportamento em muitos exemplos (entre 7% e 79%, dependendo do modelo e do benchmark). Também mostramos através de análise comportamental que, quando o direcionamento altera a decisão, o processo de cadeia de raciocínio frequentemente racionaliza a inversão em vez de resistir a ela. Juntos, esses resultados sugerem que os modelos de raciocínio podem codificar escolhas de ação antes de começarem a deliberar em texto.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Portanto, existo. Penso.

Therefore I am. I Think

Resumo

Support