ChatPaper.aiChatPaper

Control-R: В направлении управляемого масштабирования на этапе тестирования

Control-R: Towards controllable test-time scaling

May 30, 2025
Авторы: Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou
cs.AI

Аннотация

Данная работа направлена на решение проблем недостаточного и избыточного анализа в длинных цепочках рассуждений (CoT) для крупных моделей рассуждений (LRMs) путем введения Полей Управления Рассуждениями (RCF) — нового подхода на этапе тестирования, который внедряет структурированные управляющие сигналы для направления рассуждений с точки зрения поиска по дереву. RCF позволяет моделям регулировать усилия, затрачиваемые на рассуждения, в соответствии с заданными управляющими условиями при решении сложных задач. Кроме того, мы представляем набор данных Control-R-4K, состоящий из сложных задач, аннотированных детальными процессами рассуждений и соответствующими управляющими полями. Для дальнейшего улучшения управления рассуждениями мы предлагаем метод Условного Дистилляционного Тонкого Настройки (CDF), который обучает модель — в частности, Control-R-32B — эффективно регулировать усилия на рассуждения во время тестирования. Результаты экспериментов на таких тестах, как AIME2024 и MATH500, демонстрируют, что наш подход достигает наилучших результатов на уровне 32B, обеспечивая при этом управляемый процесс длинных цепочек рассуждений (L-CoT). В целом, данная работа представляет собой эффективную парадигму для управляемого масштабирования рассуждений на этапе тестирования.
English
This paper target in addressing the challenges of underthinking and overthinking in long chain-of-thought (CoT) reasoning for Large Reasoning Models (LRMs) by introducing Reasoning Control Fields (RCF)--a novel test-time approach that injects structured control signals to guide reasoning from a tree search perspective. RCF enables models to adjust reasoning effort according to given control conditions when solving complex tasks. Additionally, we present the Control-R-4K dataset, which consists of challenging problems annotated with detailed reasoning processes and corresponding control fields. To further enhance reasoning control, we propose a Conditional Distillation Finetuning (CDF) method, which trains model--particularly Control-R-32B--to effectively adjust reasoning effort during test time. Experimental results on benchmarks such as AIME2024 and MATH500 demonstrate that our approach achieves state-of-the-art performance at the 32B scale while enabling a controllable Long CoT reasoning process (L-CoT). Overall, this work introduces an effective paradigm for controllable test-time scaling reasoning.
PDF22June 5, 2025