Redeneermodellen hebben moeite om hun denkprocessen te beheersen.

Samenvatting

Chain-of-thought (CoT)-monitoring is een veelbelovend instrument voor het detecteren van wangedrag en het begrijpen van de motivaties van moderne redeneermodellen. Als modellen echter kunnen controleren wat ze in hun CoT verbaliseren, kan dit de controleerbaarheid van CoT ondermijnen. Om deze ongewenste capaciteit – CoT-controleerbaarheid – te meten, introduceren we de CoT-Control-evaluatieset, die taken omvat die modellen vereisen om problemen op te lossen terwijl ze CoT-instructies volgen, bijvoorbeeld door een genetische vraag te beantwoorden zonder het woord 'chromosoom' te gebruiken. We tonen aan dat redeneermodellen een aanzienlijk lagere CoT-controleerbaarheid bezitten dan outputcontroleerbaarheid; Claude Sonnet 4.5 kan zijn CoT bijvoorbeeld slechts 2,7% van de tijd controleren, maar 61,9% wanneer het zijn uiteindelijke output controleert. We stellen ook vast dat CoT-controleerbaarheid hoger is voor grotere modellen en afneemt met meer RL-training, rekentijd tijdens testen en toenemende probleemcomplexiteit. Mislukkingen in CoT-controleerbaarheid treden zelfs op in situaties waarin modellen prikkels krijgen (in plaats van directe verzoeken) om CoT-monitors te omzeilen, hoewel modellen een licht hogere controleerbaarheid vertonen wanneer hen wordt verteld dat ze gemonitord worden. Evenzo leidt het uitlokken van controleerbaarheid door middels adversarial prompting prompts te optimaliseren niet tot een significante toename van controleerbaarheid. Onze resultaten maken ons voorzichtig optimistisch dat CoT-controleerbaarheid momenteel onwaarschijnlijk een faalmodus van CoT-controleerbaarheid is. Het mechanisme achter de lage controleerbaarheid is echter niet goed begrepen. Gezien het belang ervan voor het handhaven van CoT-controleerbaarheid, bevelen we aan dat frontier labs CoT-controleerbaarheid in toekomstige modellen blijven volgen.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Redeneermodellen hebben moeite om hun denkprocessen te beheersen.

Reasoning Models Struggle to Control their Chains of Thought

Samenvatting

Support