Por lo tanto, existo. Pienso.
Therefore I am. I Think
April 2, 2026
Autores: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani
cs.AI
Resumen
Nos planteamos la siguiente pregunta: cuando un modelo de razonamiento de lenguaje extenso toma una decisión, ¿piensa primero y luego decide, o decide primero y luego piensa? En este artículo, presentamos evidencia de que las decisiones, detectables y codificadas tempranamente, moldean la cadena de pensamiento en los modelos de razonamiento. Específicamente, demostramos que un simple probe lineal decodifica exitosamente las decisiones de llamada a herramientas a partir de las activaciones previas a la generación con un nivel de confianza muy alto, y en algunos casos, incluso antes de que se produzca un solo token de razonamiento. La manipulación de activaciones respalda esto causalmente: perturbar la dirección de la decisión conduce a una deliberación inflada y cambia el comportamiento en muchos ejemplos (entre un 7% y un 79%, dependiendo del modelo y del benchmark). También mostramos mediante análisis conductual que, cuando la manipulación cambia la decisión, el proceso de cadena de pensamiento a menudo racionaliza el cambio en lugar de resistirse a él. En conjunto, estos resultados sugieren que los modelos de razonamiento pueden codificar elecciones de acción antes de comenzar a deliberar en texto.
English
We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.