Portanto, existo. Penso.
Therefore I am. I Think
April 2, 2026
Autores: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani
cs.AI
Resumo
Consideramos a questão: quando um modelo de raciocínio de linguagem grande faz uma escolha, ele pensa primeiro e depois decide, ou decide primeiro e depois pensa? Neste artigo, apresentamos evidências de que decisões detectáveis, codificadas precocemente, moldam a cadeia de raciocínio (chain-of-thought) em modelos de raciocínio. Especificamente, mostramos que uma sonda linear simples decodifica com sucesso decisões de chamada de ferramentas a partir de ativações pré-geração com confiança muito alta e, em alguns casos, mesmo antes que um único token de raciocínio seja produzido. O direcionamento de ativações (activation steering) apoia isso causalmente: perturbar a direção da decisão leva a uma deliberação inflada e inverte o comportamento em muitos exemplos (entre 7% e 79%, dependendo do modelo e do benchmark). Também mostramos através de análise comportamental que, quando o direcionamento altera a decisão, o processo de cadeia de raciocínio frequentemente racionaliza a inversão em vez de resistir a ela. Juntos, esses resultados sugerem que os modelos de raciocínio podem codificar escolhas de ação antes de começarem a deliberar em texto.
English
We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.