Модели рассуждений испытывают трудности с контролем над своими цепочками мыслей.

Аннотация

Мониторинг цепочек рассуждений (CoT) представляет собой перспективный инструмент для выявления некорректного поведения и понимания мотивации современных моделей, способных к рассуждениям. Однако если модели могут контролировать, что именно они вербализуют в своих CoT, это может подорвать саму возможность их мониторинга. Для оценки этой нежелательной способности — управляемости CoT — мы представляем оценочный набор данных CoT-Control, который включает задачи, требующие от моделей решения проблем с соблюдением инструкций к CoT, например, рассуждения на тему генетики без использования слова «хромосома». Мы показываем, что способность моделей к рассуждениям контролировать свои CoT значительно ниже, чем способность контролировать итоговый вывод; так, модель Claude Sonnet 4.5 может контролировать свою CoT лишь в 2,7% случаев, но в 61,9% случаев при контроле финального вывода. Мы также обнаружили, что управляемость CoT выше у более крупных моделей и снижается с увеличением количества RL-обучения, вычислительных ресурсов в момент инференса и сложности задачи. Сбои в управляемости CoT наблюдаются даже в ситуациях, когда модели предоставляются стимулы (в отличие от прямых запросов) для уклонения от мониторинга CoT, хотя модели демонстрируют несколько более высокую управляемость, когда им сообщают, что за ними ведется наблюдение. Аналогично, попытки повысить управляемость путем адверсарной оптимизации промтов не приводят к ее значительному росту. Наши результаты позволяют с осторожным оптимизмом предположить, что на текущий момент низкая управляемость CoT вряд ли является критическим недостатком, ведущим к невозможности её мониторинга. Однако механизм, стоящий за низкой управляемостью, недостаточно изучен. Учитывая её важность для поддержания мониторинга CoT, мы рекомендуем ведущим лабораториям отслеживать показатель управляемости CoT в будущих моделях.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Модели рассуждений испытывают трудности с контролем над своими цепочками мыслей.

Reasoning Models Struggle to Control their Chains of Thought

Аннотация

Support