ChatPaper.aiChatPaper

Control-R: Naar beheersbare schaling tijdens testtijd

Control-R: Towards controllable test-time scaling

May 30, 2025
Auteurs: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Samenvatting

Dit artikel richt zich op het aanpakken van de uitdagingen van onderdenken en overdenken in lange ketens van redeneringen (Chain-of-Thought, CoT) voor Grote Redeneermodellen (Large Reasoning Models, LRMs) door Reasoning Control Fields (RCF) te introduceren—een nieuwe testtijdbenadering die gestructureerde controle-signalen injecteert om redeneringen te begeleiden vanuit een boomzoekperspectief. RCF stelt modellen in staat om de inspanning voor redeneringen aan te passen op basis van gegeven controlecondities bij het oplossen van complexe taken. Daarnaast presenteren we de Control-R-4K-dataset, die bestaat uit uitdagende problemen die zijn geannoteerd met gedetailleerde redeneerprocessen en bijbehorende controlevelden. Om de controle over redeneringen verder te verbeteren, stellen we een Conditional Distillation Finetuning (CDF)-methode voor, die het model—met name Control-R-32B—trainen om effectief de redeneerinspanning tijdens testtijd aan te passen. Experimentele resultaten op benchmarks zoals AIME2024 en MATH500 tonen aan dat onze aanpak state-of-the-art prestaties bereikt op de 32B-schaal, terwijl een controleerbaar lang CoT-redeneerproces (L-CoT) mogelijk wordt gemaakt. Over het geheel genomen introduceert dit werk een effectief paradigma voor controleerbare testtijd-schaalredeneringen.
English
This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
PDF32June 5, 2025