Les modèles de raisonnement peinent à maîtriser leurs chaînes de pensée

Résumé

La surveillance par chaîne de raisonnement (CoT) est un outil prometteur pour détecter les comportements inappropriés et comprendre les motivations des modèles de raisonnement modernes. Cependant, si les modèles peuvent contrôler ce qu'ils verbalisent dans leur CoT, cela pourrait compromettre la surveillabilité des CoT. Pour mesurer cette capacité indésirable — la contrôlabilité des CoT — nous introduisons la suite d'évaluation CoT-Control, qui inclut des tâches nécessitant que les modèles résolvent des problèmes tout en respectant des instructions sur la CoT, par exemple, raisonner sur une question de génétique sans utiliser le mot 'chromosome'. Nous montrons que les modèles de raisonnement possèdent une contrôlabilité des CoT significativement plus faible que la contrôlabilité de leur sortie finale ; par exemple, Claude Sonnet 4.5 ne parvient à contrôler sa CoT que 2,7 % du temps, contre 61,9 % lorsqu'il contrôle sa réponse finale. Nous constatons également que la contrôlabilité des CoT est plus élevée pour les modèles plus grands et diminue avec un entraînement par apprentissage par renforcement plus poussé, une puissance de calcul accrue au moment du test, et une difficulté problématique accrue. Les échecs de contrôlabilité des CoT s'étendent même aux situations où des incitations (par opposition à des demandes directes) sont données aux modèles pour contourner les surveillances des CoT, bien que les modèles présentent une contrôlabilité légèrement plus élevée lorsqu'ils sont informés qu'ils sont surveillés. De même, susciter la contrôlabilité en optimisant de manière antagoniste les invites n'augmente pas significativement la contrôlabilité. Nos résultats nous laissent prudemment optimistes quant au fait que la contrôlabilité des CoT est actuellement peu susceptible de constituer un mode de défaillance de la surveillabilité des CoT. Cependant, le mécanisme sous-jacent à la faible contrôlabilité n'est pas bien compris. Compte tenu de son importance pour maintenir la surveillabilité des CoT, nous recommandons que les laboratoires de pointe suivent l'évolution de la contrôlabilité des CoT dans les futurs modèles.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Les modèles de raisonnement peinent à maîtriser leurs chaînes de pensée

Reasoning Models Struggle to Control their Chains of Thought

Résumé

Support