Los Modelos de Razonamiento Tienen Dificultades para Controlar sus Cadenas de Pensamiento

Resumen

La monitorización de la cadena de pensamiento (CoT) es una herramienta prometedora para detectar comportamientos indebidos y comprender las motivaciones de los modelos de razonamiento modernos. Sin embargo, si los modelos pueden controlar lo que verbalizan en su CoT, esto podría socavar su capacidad de ser monitorizados. Para medir esta capacidad no deseada —la controlabilidad de la CoT— presentamos el conjunto de evaluación CoT-Control, que incluye tareas que requieren que los modelos resuelvan problemas mientras siguen instrucciones sobre la CoT, por ejemplo, razonar sobre una pregunta de genética sin usar la palabra 'cromosoma'. Demostramos que los modelos de razonamiento poseen una controlabilidad de la CoT significativamente menor que la controlabilidad de la salida final; por ejemplo, Claude Sonnet 4.5 puede controlar su CoT solo en un 2.7% de los casos, pero en un 61.9% cuando controla su salida final. También encontramos que la controlabilidad de la CoT es mayor en modelos más grandes y disminuye con más entrenamiento por RL, mayor cómputo en tiempo de prueba y una mayor dificultad del problema. Los fallos de controlabilidad de la CoT se extienden incluso a situaciones en las que se dan incentivos a los modelos (en lugar de peticiones directas) para evadir los monitores de CoT, aunque los modelos muestran una controlabilidad ligeramente superior cuando se les informa de que están siendo monitorizados. Del mismo modo, elicitar la controlabilidad optimizando prompts de forma adversarial no aumenta significativamente la controlabilidad. Nuestros resultados nos dejan con un optimismo cauteloso de que la controlabilidad de la CoT actualmente no parece ser un modo de fallo de la capacidad de monitorización de la CoT. Sin embargo, el mecanismo detrás de la baja controlabilidad no se comprende bien. Dada su importancia para mantener la capacidad de monitorización de la CoT, recomendamos que los laboratorios de vanguardia realicen un seguimiento de la controlabilidad de la CoT en futuros modelos.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Los Modelos de Razonamiento Tienen Dificultades para Controlar sus Cadenas de Pensamiento

Reasoning Models Struggle to Control their Chains of Thought

Resumen

Support