ChatPaper.aiChatPaper

Control-R: Rumo ao dimensionamento controlável em tempo de teste

Control-R: Towards controllable test-time scaling

May 30, 2025
Autores: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Resumo

Este artigo tem como objetivo abordar os desafios de subpensamento e superpensamento em cadeias longas de raciocínio (CoT) para Modelos de Raciocínio de Grande Escala (LRMs) através da introdução de Campos de Controle de Raciocínio (RCF)--uma nova abordagem em tempo de teste que injeta sinais de controle estruturados para guiar o raciocínio a partir de uma perspectiva de busca em árvore. O RCF permite que os modelos ajustem o esforço de raciocínio de acordo com as condições de controle fornecidas ao resolver tarefas complexas. Além disso, apresentamos o conjunto de dados Control-R-4K, que consiste em problemas desafiadores anotados com processos de raciocínio detalhados e campos de controle correspondentes. Para aprimorar ainda mais o controle de raciocínio, propomos um método de Ajuste Fino por Destilação Condicional (CDF), que treina o modelo--especificamente o Control-R-32B--para ajustar efetivamente o esforço de raciocínio durante o tempo de teste. Resultados experimentais em benchmarks como AIME2024 e MATH500 demonstram que nossa abordagem alcança desempenho de ponta na escala de 32B, ao mesmo tempo que permite um processo de raciocínio de Longa CoT (L-CoT) controlável. No geral, este trabalho introduz um paradigma eficaz para o dimensionamento controlável de raciocínio em tempo de teste.
English
This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
PDF32June 5, 2025