ChatPaper.aiChatPaper

Control-R: Hacia un escalado controlable en tiempo de prueba

Control-R: Towards controllable test-time scaling

May 30, 2025
Autores: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Resumen

Este artículo aborda los desafíos del pensamiento insuficiente y excesivo en el razonamiento de cadenas largas de pensamiento (CoT, por sus siglas en inglés) para Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) mediante la introducción de Campos de Control de Razonamiento (RCF, por sus siglas en inglés), un enfoque novedoso en tiempo de prueba que inyecta señales de control estructuradas para guiar el razonamiento desde una perspectiva de búsqueda en árbol. Los RCF permiten a los modelos ajustar el esfuerzo de razonamiento según las condiciones de control dadas al resolver tareas complejas. Además, presentamos el conjunto de datos Control-R-4K, que consta de problemas desafiantes anotados con procesos de razonamiento detallados y campos de control correspondientes. Para mejorar aún más el control del razonamiento, proponemos un método de Ajuste Fino por Destilación Condicional (CDF, por sus siglas en inglés), que entrena al modelo—específicamente Control-R-32B—para ajustar eficazmente el esfuerzo de razonamiento durante la prueba. Los resultados experimentales en puntos de referencia como AIME2024 y MATH500 demuestran que nuestro enfoque logra un rendimiento de vanguardia a escala de 32B, al tiempo que permite un proceso de razonamiento de CoT largo (L-CoT) controlable. En general, este trabajo introduce un paradigma efectivo para el escalado controlable del razonamiento en tiempo de prueba.
English
This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
PDF22June 5, 2025