Ik denk, dus ik ben.

Samenvatting

Wij onderzoeken de vraag: wanneer een groot taalmodel een keuze maakt, dacht het eerst en besloot het daarna, of besloot het eerst en dacht het daarna? In dit artikel presenteren we bewijs dat detecteerbare, vroeg gecodeerde beslissingen de gedachtegang (chain-of-thought) in redeneermodellen vormgeven. Concreet tonen we aan dat een eenvoudige lineaire probe beslissingen voor tool-aanroeping met zeer hoge betrouwbaarheid kan decoderen uit activaties vóór de generatie, en in sommige gevallen zelfs voordat een enkele redeneertoken wordt geproduceerd. Activatiesturing ondersteunt dit causaal: het verstoren van de beslissingsrichting leidt tot opgeblazen beraadslaging en keert het gedrag in veel voorbeelden om (tussen 7 - 79%, afhankelijk van model en benchmark). Gedragsanalyse toont verder aan dat, wanneer sturing de beslissing verandert, de gedachtegang vaak de omslag rationaliseert in plaats van ertegen te weerstaan. Gezamenlijk suggereren deze resultaten dat redeneermodellen actiekeuzes kunnen coderen voordat ze tekstueel gaan delibereren.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Ik denk, dus ik ben.

Therefore I am. I Think

Samenvatting

Support