Control-R: Auf dem Weg zu kontrollierbarer Skalierung zur Testzeit
Control-R: Towards controllable test-time scaling
May 30, 2025
Autoren: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Zusammenfassung
Dieses Papier zielt darauf ab, die Herausforderungen von Unterdenken und Überdenken in langen Ketten von Denkprozessen (Chain-of-Thought, CoT) für große Denkmodelle (Large Reasoning Models, LRMs) zu adressieren, indem es Reasoning Control Fields (RCF) einführt – einen neuartigen Ansatz zur Laufzeit, der strukturierte Kontrollsignale injiziert, um das Denken aus einer Baum-Such-Perspektive zu steuern. RCF ermöglicht es Modellen, den Denkaufwand gemäß vorgegebener Kontrollbedingungen bei der Lösung komplexer Aufgaben anzupassen. Zusätzlich stellen wir den Control-R-4K-Datensatz vor, der herausfordernde Probleme mit detaillierten Denkprozessen und entsprechenden Kontrollfeldern enthält. Um die Denkkontrolle weiter zu verbessern, schlagen wir eine Conditional Distillation Finetuning (CDF)-Methode vor, die Modelle – insbesondere Control-R-32B – trainiert, um den Denkaufwand während der Laufzeit effektiv anzupassen. Experimentelle Ergebnisse auf Benchmarks wie AIME2024 und MATH500 zeigen, dass unser Ansatz auf dem 32B-Maßstab state-of-the-art Leistung erzielt und gleichzeitig einen kontrollierbaren langen Denkprozess (Long CoT, L-CoT) ermöglicht. Insgesamt führt diese Arbeit ein effektives Paradigma für kontrollierbares Skalieren von Denkprozessen zur Laufzeit ein.
English
This paper target in addressing the challenges of underthinking and
overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning
Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time
approach that injects structured control signals to guide reasoning from a tree
search perspective. RCF enables models to adjust reasoning effort according to
given control conditions when solving complex tasks. Additionally, we present
the Control-R-4K dataset, which consists of challenging problems annotated with
detailed reasoning processes and corresponding control fields. To further
enhance reasoning control, we propose a Conditional Distillation Finetuning
(CDF) method, which trains model--particularly Control-R-32B--to effectively
adjust reasoning effort during test time. Experimental results on benchmarks
such as AIME2024 and MATH500 demonstrate that our approach achieves
state-of-the-art performance at the 32B scale while enabling a controllable
Long CoT reasoning process (L-CoT). Overall, this work introduces an effective
paradigm for controllable test-time scaling reasoning.