Vernunftmodelle haben Schwierigkeiten, ihre Gedankenketten zu kontrollieren.

Zusammenfassung

Die Überwachung von Denkketten (Chain-of-Thought, CoT) ist ein vielversprechendes Instrument, um Fehlverhalten zu erkennen und die Motivationen moderner Reasoning-Modelle zu verstehen. Wenn Modelle jedoch kontrollieren können, was sie in ihrer CoT verbalisieren, könnte dies die Überwachbarkeit von CoT untergraben. Um diese unerwünschte Fähigkeit – die CoT-Kontrollierbarkeit – zu messen, führen wir den CoT-Control-Evaluationssatz ein. Dieser umfasst Aufgaben, die von Modellen verlangen, Probleme zu lösen und dabei CoT-Anweisungen zu befolgen, z.B. eine Genetikfrage zu beantworten, ohne das Wort "Chromosom" zu verwenden. Wir zeigen, dass Reasoning-Modelle eine signifikant geringere CoT-Kontrollierbarkeit aufweisen als Output-Kontrollierbarkeit; so kann Claude Sonnet 4.5 seine CoT nur in 2,7 % der Fälle kontrollieren, aber in 61,9 % der Fälle, wenn es um die Kontrolle der finalen Antwort geht. Wir stellen außerdem fest, dass die CoT-Kontrollierbarkeit bei größeren Modellen höher ist und mit mehr RL-Training, Test-Time-Compute und zunehmender Problemkomplexität abnimmt. Fehler in der CoT-Kontrollierbarkeit treten sogar in Situationen auf, in denen Modelle Anreize erhalten (anstatt direkter Aufforderungen), um CoT-Überwachungen zu umgehen, obwohl Modelle eine leicht erhöhte Kontrollierbarkeit zeigen, wenn ihnen mitgeteilt wird, dass sie überwacht werden. Ebenso steigert das adversarische Optimieren von Prompts zur Erzwingung von Kontrollierbarkeit diese nicht wesentlich. Unsere Ergebnisse stimmen uns vorsichtig optimistisch, dass CoT-Kontrollierbarkeit derzeit wahrscheinlich kein Versagensmodus der CoT-Überwachbarkeit ist. Der Mechanismus hinter der geringen Kontrollierbarkeit ist jedoch nicht gut verstanden. Angesichts ihrer Bedeutung für die Aufrechterhaltung der CoT-Überwachbarkeit empfehlen wir, dass Frontier Labs die CoT-Kontrollierbarkeit in zukünftigen Modellen verfolgen.

English

Chain-of-thought (CoT) monitoring is a promising tool for detecting misbehaviors and understanding the motivations of modern reasoning models. However, if models can control what they verbalize in their CoT, it could undermine CoT monitorability. To measure this undesirable capability -- CoT controllability -- we introduce the CoT-Control evaluation suite, which includes tasks that require models to solve problems while adhering to CoT instructions, e.g., reasoning about a genetics question without using the word 'chromosome'. We show that reasoning models possess significantly lower CoT controllability than output controllability; for instance, Claude Sonnet 4.5 can control its CoT only 2.7% of the time but 61.9% when controlling its final output. We also find that CoT controllability is higher for larger models and decreases with more RL training, test-time compute, and increased problem difficulty. CoT controllability failures extend even to situations in which models are given incentives (as opposed to direct requests) to evade CoT monitors, although models exhibit slightly higher controllability when they are told they are being monitored. Similarly, eliciting controllability by adversarially optimizing prompts does not meaningfully increase controllability. Our results leave us cautiously optimistic that CoT controllability is currently unlikely to be a failure mode of CoT monitorability. However, the mechanism behind low controllability is not well understood. Given its importance for maintaining CoT monitorability, we recommend that frontier labs track CoT controllability in future models.

Vernunftmodelle haben Schwierigkeiten, ihre Gedankenketten zu kontrollieren.

Reasoning Models Struggle to Control their Chains of Thought

Zusammenfassung

Support