Control-R : Vers un ajustement contrôlable en phase de test

papers.abstract

Cet article vise à relever les défis du sous-raisonnement et du sur-raisonnement dans les longues chaînes de pensée (CoT) pour les modèles de raisonnement à grande échelle (LRMs) en introduisant les Champs de Contrôle du Raisonnement (RCF) -- une nouvelle approche au moment du test qui injecte des signaux de contrôle structurés pour guider le raisonnement selon une perspective de recherche arborescente. Les RCF permettent aux modèles d'ajuster l'effort de raisonnement en fonction des conditions de contrôle données lors de la résolution de tâches complexes. De plus, nous présentons le jeu de données Control-R-4K, qui comprend des problèmes difficiles annotés avec des processus de raisonnement détaillés et les champs de contrôle correspondants. Pour renforcer davantage le contrôle du raisonnement, nous proposons une méthode de Fine-Tuning par Distillation Conditionnelle (CDF), qui entraîne le modèle -- en particulier Control-R-32B -- à ajuster efficacement l'effort de raisonnement pendant le test. Les résultats expérimentaux sur des benchmarks tels que AIME2024 et MATH500 démontrent que notre approche atteint des performances de pointe à l'échelle 32B tout en permettant un processus de raisonnement en longue chaîne de pensée (L-CoT) contrôlable. Globalement, ce travail introduit un paradigme efficace pour un raisonnement scalable et contrôlable au moment du test.

English

This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.

Control-R : Vers un ajustement contrôlable en phase de test

Control-R: Towards controllable test-time scaling

papers.abstract

Support