I modelli di ragionamento faticano a controllare le proprie catene di pensiero

Abstract

Il monitoraggio del ragionamento a catena (CoT) è uno strumento promettente per rilevare comportamenti scorretti e comprendere le motivazioni dei moderni modelli di ragionamento. Tuttavia, se i modelli possono controllare ciò che verbalizzano nel loro CoT, ciò potrebbe minare la monitorabilità del CoT. Per misurare questa capacità indesiderata – la controllabilità del CoT – introduciamo la suite di valutazione CoT-Control, che include compiti che richiedono ai modelli di risolvere problemi rispettando le istruzioni del CoT, ad esempio, ragionare su una questione di genetica senza utilizzare la parola "cromosoma". Dimostriamo che i modelli di ragionamento possiedono una controllabilità del CoT significativamente inferiore rispetto alla controllabilità dell'output; ad esempio, Claude Sonnet 4.5 riesce a controllare il proprio CoT solo nel 2,7% dei casi, ma nel 61,9% dei casi quando controlla il proprio output finale. Troviamo inoltre che la controllabilità del CoT è maggiore per i modelli più grandi e diminuisce con un maggiore addestramento RL, con più risorse computazionali al momento del test e con l'aumentare della difficoltà del problema. I fallimenti nella controllabilità del CoT si estendono persino a situazioni in cui ai modelli vengono forniti incentivi (anziché richieste dirette) per eludere i monitor del CoT, sebbene i modelli mostrino una controllabilità leggermente superiore quando viene loro detto che sono monitorati. Allo stesso modo, ottenere controllabilità ottimizzando in modo avversario i prompt non aumenta in modo significativo la controllabilità. I nostri risultati ci lasciano cautamente ottimisti sul fatto che la controllabilità del CoT attualmente difficilmente rappresenti una modalità di fallimento della monitorabilità del CoT. Tuttavia, il meccanismo alla base della bassa controllabilità non è ben compreso. Data la sua importanza per mantenere la monitorabilità del CoT, raccomandiamo che i laboratori all'avanguardia tengano traccia della controllabilità del CoT nei modelli futuri.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

I modelli di ragionamento faticano a controllare le proprie catene di pensiero

Reasoning Models Struggle to Control their Chains of Thought

Abstract

Support