Je pense, donc je suis.
Therefore I am. I Think
April 2, 2026
Auteurs: Esakkivel Esakkiraja, Sai Rajeswar, Denis Akhiyarov, Rajagopal Venkatesaramani
cs.AI
Résumé
Nous examinons la question suivante : lorsqu'un grand modèle de raisonnement linguistique fait un choix, a-t-il d'abord réfléchi puis décidé, ou a-t-il d'abord décidé puis réfléchi ? Dans cet article, nous présentons des preuves que des décisions détectables, encodées précocement, façonnent le raisonnement en chaîne (chain-of-thought) dans les modèles de raisonnement. Plus précisément, nous montrons qu'une simple sonde linéaire décode avec succès les décisions d'appel d'outils à partir des activations pré-génération avec une très grande confiance, et dans certains cas, avant même qu'un seul jeton de raisonnement ne soit produit. Le pilotage des activations étaye cela de manière causale : perturber la direction de la décision entraîne une délibération excessive et inverse le comportement dans de nombreux exemples (entre 7 % et 79 % selon le modèle et le benchmark). Notre analyse comportementale montre également que, lorsque le pilotage modifie la décision, le processus de raisonnement en chaîne tend souvent à rationaliser le renversement plutôt qu'à y résister. Ensemble, ces résultats suggèrent que les modèles de raisonnement peuvent encoder des choix d'action avant même de commencer à délibérer en texte.
English
We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.