Also bin ich. Ich denke.

Zusammenfassung

Wir betrachten die Frage: Wenn ein großes Sprachmodell eine Entscheidung trifft, denkt es zuerst und entscheidet dann, oder entscheidet es zuerst und denkt dann? In dieser Arbeit präsentieren wir Belege dafür, dass nachweisbare, früh kodierte Entscheidungen die Denkketten (Chain-of-Thought) in Reasoning-Modellen prägen. Konkret zeigen wir, dass eine einfache lineare Sonde (Linear Probe) Tool-Calling-Entscheidungen aus Aktivierungen vor der Generierung mit sehr hoher Konfidenz decodieren kann, in einigen Fällen sogar bevor ein einziger Reasoning-Token erzeugt wird. Aktivierungssteuerung (Activation Steering) unterstützt dies kausal: Die Störung der Entscheidungsrichtung führt zu aufgeblähter Abwägung und kehrt das Verhalten in vielen Beispielen um (zwischen 7 % und 79 %, abhängig von Modell und Benchmark). Durch Verhaltensanalysen zeigen wir außerdem, dass der Denkkettenprozess bei einer durch Steuerung veränderten Entscheidung oft den Wechsel rationalisiert, anstatt ihm zu widerstehen. Zusammengenommen deuten diese Ergebnisse darauf hin, dass Reasoning-Modelle Handlungswahlen kodieren können, bevor sie mit der textuellen Deliberation beginnen.

English

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.

Also bin ich. Ich denke.

Therefore I am. I Think

Zusammenfassung

Support