Os Modelos de Raciocínio Têm Dificuldade em Controlar as suas Cadeias de Pensamento

Resumo

A monitorização por cadeia de pensamento (CoT) é uma ferramenta promissora para detetar comportamentos inadequados e compreender as motivações dos modelos de raciocínio modernos. No entanto, se os modelos conseguirem controlar o que verbalizam na sua CoT, isso pode comprometer a monitorizabilidade da CoT. Para medir esta capacidade indesejável — a controlabilidade da CoT — introduzimos o conjunto de avaliação CoT-Control, que inclui tarefas que exigem que os modelos resolvam problemas enquanto aderem a instruções de CoT, por exemplo, raciocinando sobre uma questão de genética sem usar a palavra 'cromossoma'. Mostramos que os modelos de raciocínio possuem uma controlabilidade da CoT significativamente inferior à controlabilidade da saída final; por exemplo, o Claude Sonnet 4.5 consegue controlar a sua CoT apenas 2,7% das vezes, mas 61,9% quando controla a sua saída final. Também descobrimos que a controlabilidade da CoT é maior para modelos maiores e diminui com mais treino de aprendizagem por reforço (RL), com *compute* em tempo de teste e com o aumento da dificuldade do problema. As falhas de controlabilidade da CoT estendem-se mesmo a situações em que são dados incentivos aos modelos (em oposição a pedidos diretos) para contornar os monitores de CoT, embora os modelos exibam uma controlabilidade ligeiramente superior quando lhes é dito que estão a ser monitorizados. Da mesma forma, eliciar a controlabilidade através da otimização adversarial de *prompts* não aumenta significativamente a controlabilidade. Os nossos resultados deixam-nos cautelosamente otimistas de que a controlabilidade da CoT é atualmente pouco provável que seja um modo de falha da monitorizabilidade da CoT. No entanto, o mecanismo por trás da baixa controlabilidade não é bem compreendido. Dada a sua importância para manter a monitorizabilidade da CoT, recomendamos que os *frontier labs* acompanhem a controlabilidade da CoT em modelos futuros.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Os Modelos de Raciocínio Têm Dificuldade em Controlar as suas Cadeias de Pensamento

Reasoning Models Struggle to Control their Chains of Thought

Resumo

Support