Por lo tanto, existo. Pienso.

Resumen

Nos planteamos la siguiente pregunta: cuando un modelo de razonamiento de lenguaje extenso toma una decisión, ¿piensa primero y luego decide, o decide primero y luego piensa? En este artículo, presentamos evidencia de que las decisiones, detectables y codificadas tempranamente, moldean la cadena de pensamiento en los modelos de razonamiento. Específicamente, demostramos que un simple probe lineal decodifica exitosamente las decisiones de llamada a herramientas a partir de las activaciones previas a la generación con un nivel de confianza muy alto, y en algunos casos, incluso antes de que se produzca un solo token de razonamiento. La manipulación de activaciones respalda esto causalmente: perturbar la dirección de la decisión conduce a una deliberación inflada y cambia el comportamiento en muchos ejemplos (entre un 7% y un 79%, dependiendo del modelo y del benchmark). También mostramos mediante análisis conductual que, cuando la manipulación cambia la decisión, el proceso de cadena de pensamiento a menudo racionaliza el cambio en lugar de resistirse a él. En conjunto, estos resultados sugieren que los modelos de razonamiento pueden codificar elecciones de acción antes de comenzar a deliberar en texto.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Por lo tanto, existo. Pienso.

Therefore I am. I Think

Resumen

Support