ChatPaper.aiChatPaper

Control-R: Auf dem Weg zu kontrollierbarer Skalierung zur Testzeit

Control-R: Towards controllable test-time scaling

May 30, 2025
Autoren: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Zusammenfassung

Dieses Papier zielt darauf ab, die Herausforderungen von Unterdenken und Überdenken in langen Ketten von Denkprozessen (Chain-of-Thought, CoT) für große Denkmodelle (Large Reasoning Models, LRMs) zu adressieren, indem es Reasoning Control Fields (RCF) einführt – einen neuartigen Ansatz zur Laufzeit, der strukturierte Kontrollsignale injiziert, um das Denken aus einer Baum-Such-Perspektive zu steuern. RCF ermöglicht es Modellen, den Denkaufwand gemäß vorgegebener Kontrollbedingungen bei der Lösung komplexer Aufgaben anzupassen. Zusätzlich stellen wir den Control-R-4K-Datensatz vor, der herausfordernde Probleme mit detaillierten Denkprozessen und entsprechenden Kontrollfeldern enthält. Um die Denkkontrolle weiter zu verbessern, schlagen wir eine Conditional Distillation Finetuning (CDF)-Methode vor, die Modelle – insbesondere Control-R-32B – trainiert, um den Denkaufwand während der Laufzeit effektiv anzupassen. Experimentelle Ergebnisse auf Benchmarks wie AIME2024 und MATH500 zeigen, dass unser Ansatz auf dem 32B-Maßstab state-of-the-art Leistung erzielt und gleichzeitig einen kontrollierbaren langen Denkprozess (Long CoT, L-CoT) ermöglicht. Insgesamt führt diese Arbeit ein effektives Paradigma für kontrollierbares Skalieren von Denkprozessen zur Laufzeit ein.
English
This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
PDF22June 5, 2025