Control-R: Verso un ridimensionamento controllabile durante il test
Control-R: Towards controllable test-time scaling
May 30, 2025
Autori: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Abstract
Questo articolo si propone di affrontare le sfide del sottopensiero e del sovrapensiero nel ragionamento a lunga catena di pensiero (CoT) per i Modelli di Ragionamento su Grande Scala (LRMs) introducendo i Campi di Controllo del Ragionamento (RCF)--un approccio innovativo in fase di test che inietta segnali di controllo strutturati per guidare il ragionamento da una prospettiva di ricerca ad albero. Gli RCF consentono ai modelli di regolare lo sforzo di ragionamento in base alle condizioni di controllo specificate durante la risoluzione di compiti complessi. Inoltre, presentiamo il dataset Control-R-4K, composto da problemi impegnativi annotati con processi di ragionamento dettagliati e corrispondenti campi di controllo. Per migliorare ulteriormente il controllo del ragionamento, proponiamo un metodo di Fine-tuning con Distillazione Condizionale (CDF), che addestra il modello--in particolare Control-R-32B--a regolare efficacemente lo sforzo di ragionamento durante il test. I risultati sperimentali su benchmark come AIME2024 e MATH500 dimostrano che il nostro approccio raggiunge prestazioni all'avanguardia alla scala 32B, consentendo un processo di ragionamento a Lunga CoT (L-CoT) controllabile. Nel complesso, questo lavoro introduce un paradigma efficace per il ragionamento scalabile e controllabile in fase di test.
English
This paper target in addressing the challenges of underthinking and
overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning
Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time
approach that injects structured control signals to guide reasoning from a tree
search perspective. RCF enables models to adjust reasoning effort according to
given control conditions when solving complex tasks. Additionally, we present
the Control-R-4K dataset, which consists of challenging problems annotated with
detailed reasoning processes and corresponding control fields. To further
enhance reasoning control, we propose a Conditional Distillation Finetuning
(CDF) method, which trains model--particularly Control-R-32B--to effectively
adjust reasoning effort during test time. Experimental results on benchmarks
such as AIME2024 and MATH500 demonstrate that our approach achieves
state-of-the-art performance at the 32B scale while enabling a controllable
Long CoT reasoning process (L-CoT). Overall, this work introduces an effective
paradigm for controllable test-time scaling reasoning.