Je pense, donc je suis.

Résumé

Nous examinons la question suivante : lorsqu'un grand modèle de raisonnement linguistique fait un choix, a-t-il d'abord réfléchi puis décidé, ou a-t-il d'abord décidé puis réfléchi ? Dans cet article, nous présentons des preuves que des décisions détectables, encodées précocement, façonnent le raisonnement en chaîne (chain-of-thought) dans les modèles de raisonnement. Plus précisément, nous montrons qu'une simple sonde linéaire décode avec succès les décisions d'appel d'outils à partir des activations pré-génération avec une très grande confiance, et dans certains cas, avant même qu'un seul jeton de raisonnement ne soit produit. Le pilotage des activations étaye cela de manière causale : perturber la direction de la décision entraîne une délibération excessive et inverse le comportement dans de nombreux exemples (entre 7 % et 79 % selon le modèle et le benchmark). Notre analyse comportementale montre également que, lorsque le pilotage modifie la décision, le processus de raisonnement en chaîne tend souvent à rationaliser le renversement plutôt qu'à y résister. Ensemble, ces résultats suggèrent que les modèles de raisonnement peuvent encoder des choix d'action avant même de commencer à délibérer en texte.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Je pense, donc je suis.

Therefore I am. I Think

Résumé

Support