Control-R: Rumo ao dimensionamento controlável em tempo de teste
Control-R: Towards controllable test-time scaling
May 30, 2025
Autores: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI
Resumo
Este artigo tem como objetivo abordar os desafios de subpensamento e
superpensamento em cadeias longas de raciocínio (CoT) para Modelos de Raciocínio
de Grande Escala (LRMs) através da introdução de Campos de Controle de
Raciocínio (RCF)--uma nova abordagem em tempo de teste que injeta sinais de
controle estruturados para guiar o raciocínio a partir de uma perspectiva de
busca em árvore. O RCF permite que os modelos ajustem o esforço de raciocínio de
acordo com as condições de controle fornecidas ao resolver tarefas complexas.
Além disso, apresentamos o conjunto de dados Control-R-4K, que consiste em
problemas desafiadores anotados com processos de raciocínio detalhados e campos
de controle correspondentes. Para aprimorar ainda mais o controle de
raciocínio, propomos um método de Ajuste Fino por Destilação Condicional (CDF),
que treina o modelo--especificamente o Control-R-32B--para ajustar
efetivamente o esforço de raciocínio durante o tempo de teste. Resultados
experimentais em benchmarks como AIME2024 e MATH500 demonstram que nossa
abordagem alcança desempenho de ponta na escala de 32B, ao mesmo tempo que
permite um processo de raciocínio de Longa CoT (L-CoT) controlável. No geral, este
trabalho introduz um paradigma eficaz para o dimensionamento controlável de
raciocínio em tempo de teste.
English
This paper target in addressing the challenges of underthinking and
overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning
Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time
approach that injects structured control signals to guide reasoning from a tree
search perspective. RCF enables models to adjust reasoning effort according to
given control conditions when solving complex tasks. Additionally, we present
the Control-R-4K dataset, which consists of challenging problems annotated with
detailed reasoning processes and corresponding control fields. To further
enhance reasoning control, we propose a Conditional Distillation Finetuning
(CDF) method, which trains model--particularly Control-R-32B--to effectively
adjust reasoning effort during test time. Experimental results on benchmarks
such as AIME2024 and MATH500 demonstrate that our approach achieves
state-of-the-art performance at the 32B scale while enabling a controllable
Long CoT reasoning process (L-CoT). Overall, this work introduces an effective
paradigm for controllable test-time scaling reasoning.