Helpen denktokens met veiligheid?

Samenvatting

De hedendaagse redeneermodellen gebruiken denktokens om sterkere prestaties te behalen op benchmarks dan hun instructie-afgestemde tegenhangers. Er wordt ook algemeen aangenomen dat deze meer 'deliberatieve' modus de afstemming en veiligheid zou moeten verbeteren, doordat het model een veilige ruimte krijgt om te overwegen of zijn geplande antwoord op een verzoek zijn veiligheidsprincipes schendt. Wij presenteren bewijs dat deze intuïtie niet altijd correct is. Bij geavanceerde open-gewichtsredeneermodellen uit de GPT-OSS-, Qwen-, Olmo- en Phi-families zien we dat de uiteindelijke uitkomst van weigering/instemming al sterk voorspelbaar is via een getrainde kop op de verborgen representatie van het eerste token (0,84-0,95 AUROC en ca. 88% gebalanceerde nauwkeurigheid voor het voorspellen van weigering/instemming) voordat er enige zichtbare denkactiviteit plaatsvindt. Het denkproces blijkt meer op prefix-aanvulling te lijken dan op deliberatieve herziening, waarbij de uiteindelijke uitkomst zelden verandert na de eerste ca. 20% van het denkproces, ondanks de schijn van deliberatie op tekstniveau (ca. 74% van de deliberaties op tekstniveau vinden plaats wanneer de responsverdeling al is vastgelegd op één kant van weigering/instemming). We ontdekken ook dat bestaande interventies voor veiligheid tijdens inferentie en training, hoewel gemotiveerd door het doel om deliberatie te induceren, het modelgedrag grotendeels verschuiven naar overmatige weigering, terwijl reeds schaarse deliberatiesignalen worden onderdrukt. Onze resultaten suggereren dat veiligheidsgedrag in huidige redeneermodellen veel minder deliberatief is dan algemeen wordt aangenomen, en benadrukken de noodzaak van methoden die echte veiligheidsdeliberatie induceren.

English

Today's reasoning models use thinking tokens to attain stronger performance on benchmarks than their instruction-tuned counterparts. It is also generally believed that this more "deliberative" mode should improve alignment and safety, by providing the model a safe space to consider whether its planned answer to a request violates its safety principles. We present evidence that this intuition is not always correct. Across frontier open-weight reasoning models spanning GPT-OSS, Qwen, Olmo, and Phi families, we find that the eventual refusal/compliance outcome is already strongly predictable via a trained head on the first token's hidden representation (0.84-0.95 AUROC and sim88% balanced accuracy for predicting refusal/compliance) before any visible thinking. The thinking process turns out to be more akin to prefix completion than to deliberative revision, with the final outcome rarely changing after the first sim20% of thinking, despite giving the appearance of deliberation at the text level (sim74% of text-level deliberations occur when the response distribution is already locked to one refusal/compliance side). We also find that existing inference-time and training-based safety interventions, despite being motivated by the goal of inducing deliberation, largely shift model behavior toward over-refusal while suppressing already-scarce deliberation signals. Our results suggest that safety behavior in current reasoning models is much less deliberative than commonly assumed, and highlight the need for methods that induce real safety deliberation.