Control-R: Hacia un escalado controlable en tiempo de prueba
Control-R: Towards controllable test-time scaling
May 30, 2025
Autores: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Resumen
Este artículo aborda los desafíos del pensamiento insuficiente y excesivo en el razonamiento de cadenas largas de pensamiento (CoT, por sus siglas en inglés) para Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) mediante la introducción de Campos de Control de Razonamiento (RCF, por sus siglas en inglés), un enfoque novedoso en tiempo de prueba que inyecta señales de control estructuradas para guiar el razonamiento desde una perspectiva de búsqueda en árbol. Los RCF permiten a los modelos ajustar el esfuerzo de razonamiento según las condiciones de control dadas al resolver tareas complejas. Además, presentamos el conjunto de datos Control-R-4K, que consta de problemas desafiantes anotados con procesos de razonamiento detallados y campos de control correspondientes. Para mejorar aún más el control del razonamiento, proponemos un método de Ajuste Fino por Destilación Condicional (CDF, por sus siglas en inglés), que entrena al modelo—específicamente Control-R-32B—para ajustar eficazmente el esfuerzo de razonamiento durante la prueba. Los resultados experimentales en puntos de referencia como AIME2024 y MATH500 demuestran que nuestro enfoque logra un rendimiento de vanguardia a escala de 32B, al tiempo que permite un proceso de razonamiento de CoT largo (L-CoT) controlable. En general, este trabajo introduce un paradigma efectivo para el escalado controlable del razonamiento en tiempo de prueba.
English
This paper target in addressing the challenges of underthinking and
overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning
Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time
approach that injects structured control signals to guide reasoning from a tree
search perspective. RCF enables models to adjust reasoning effort according to
given control conditions when solving complex tasks. Additionally, we present
the Control-R-4K dataset, which consists of challenging problems annotated with
detailed reasoning processes and corresponding control fields. To further
enhance reasoning control, we propose a Conditional Distillation Finetuning
(CDF) method, which trains model--particularly Control-R-32B--to effectively
adjust reasoning effort during test time. Experimental results on benchmarks
such as AIME2024 and MATH500 demonstrate that our approach achieves
state-of-the-art performance at the 32B scale while enabling a controllable
Long CoT reasoning process (L-CoT). Overall, this work introduces an effective
paradigm for controllable test-time scaling reasoning.