Control-R : Vers un ajustement contrôlable en phase de test
Control-R: Towards controllable test-time scaling
May 30, 2025
Auteurs: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Résumé
Cet article vise à relever les défis du sous-raisonnement et du sur-raisonnement dans les longues chaînes de pensée (CoT) pour les modèles de raisonnement à grande échelle (LRMs) en introduisant les Champs de Contrôle du Raisonnement (RCF) -- une nouvelle approche au moment du test qui injecte des signaux de contrôle structurés pour guider le raisonnement selon une perspective de recherche arborescente. Les RCF permettent aux modèles d'ajuster l'effort de raisonnement en fonction des conditions de contrôle données lors de la résolution de tâches complexes. De plus, nous présentons le jeu de données Control-R-4K, qui comprend des problèmes difficiles annotés avec des processus de raisonnement détaillés et les champs de contrôle correspondants. Pour renforcer davantage le contrôle du raisonnement, nous proposons une méthode de Fine-Tuning par Distillation Conditionnelle (CDF), qui entraîne le modèle -- en particulier Control-R-32B -- à ajuster efficacement l'effort de raisonnement pendant le test. Les résultats expérimentaux sur des benchmarks tels que AIME2024 et MATH500 démontrent que notre approche atteint des performances de pointe à l'échelle 32B tout en permettant un processus de raisonnement en longue chaîne de pensée (L-CoT) contrôlable. Globalement, ce travail introduit un paradigme efficace pour un raisonnement scalable et contrôlable au moment du test.
English
This paper target in addressing the challenges of underthinking and
overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning
Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time
approach that injects structured control signals to guide reasoning from a tree
search perspective. RCF enables models to adjust reasoning effort according to
given control conditions when solving complex tasks. Additionally, we present
the Control-R-4K dataset, which consists of challenging problems annotated with
detailed reasoning processes and corresponding control fields. To further
enhance reasoning control, we propose a Conditional Distillation Finetuning
(CDF) method, which trains model--particularly Control-R-32B--to effectively
adjust reasoning effort during test time. Experimental results on benchmarks
such as AIME2024 and MATH500 demonstrate that our approach achieves
state-of-the-art performance at the 32B scale while enabling a controllable
Long CoT reasoning process (L-CoT). Overall, this work introduces an effective
paradigm for controllable test-time scaling reasoning.