ChatPaper.aiChatPaper

AdaCtrl: В направлении адаптивного и управляемого рассуждения через бюджетирование с учетом сложности

AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

May 24, 2025
Авторы: Shijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung
cs.AI

Аннотация

Современные крупные модели рассуждений демонстрируют впечатляющие способности к решению задач, используя сложные стратегии рассуждений. Однако они часто сталкиваются с трудностями в балансировке эффективности и результативности, генерируя излишне длинные цепочки рассуждений для простых задач. В данной работе мы предлагаем AdaCtrl, новый фреймворк, который поддерживает как адаптивное распределение бюджета рассуждений с учетом сложности задачи, так и явный контроль пользователя над глубиной рассуждений. AdaCtrl динамически корректирует длину рассуждений на основе самооценки сложности задачи, а также позволяет пользователям вручную управлять бюджетом, чтобы отдавать приоритет либо эффективности, либо результативности. Это достигается за счет двухэтапного процесса обучения: начальной фазы тонкой настройки для формирования способности к самооценке сложности и корректировки бюджета рассуждений, за которой следует этап обучения с подкреплением (RL) с учетом сложности, который улучшает адаптивные стратегии рассуждений модели и калибрует её оценки сложности на основе её развивающихся возможностей в ходе онлайн-обучения. Для обеспечения интуитивного взаимодействия с пользователем мы разработали явные теги, активируемые длиной, которые служат естественным интерфейсом для управления бюджетом. Эмпирические результаты показывают, что AdaCtrl адаптирует длину рассуждений в зависимости от оцененной сложности задачи. По сравнению с базовым подходом, который также включает тонкую настройку и RL, AdaCtrl демонстрирует улучшение производительности и одновременно сокращает длину ответов на 10,06% и 12,14% на более сложных наборах данных AIME2024 и AIME2025, требующих детальных рассуждений, и на 62,05% и 91,04% на наборах данных MATH500 и GSM8K, где достаточно более кратких ответов. Кроме того, AdaCtrl обеспечивает точный контроль пользователя над бюджетом рассуждений, позволяя создавать адаптированные ответы для удовлетворения конкретных потребностей.
English
Modern large reasoning models demonstrate impressive problem-solving capabilities by employing sophisticated reasoning strategies. However, they often struggle to balance efficiency and effectiveness, frequently generating unnecessarily lengthy reasoning chains for simple problems. In this work, we propose AdaCtrl, a novel framework to support both difficulty-aware adaptive reasoning budget allocation and explicit user control over reasoning depth. AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem difficulty, while also allowing users to manually control the budget to prioritize either efficiency or effectiveness. This is achieved through a two-stage training pipeline: an initial cold-start fine-tuning phase to instill the ability to self-aware difficulty and adjust reasoning budget, followed by a difficulty-aware reinforcement learning (RL) stage that refines the model's adaptive reasoning strategies and calibrates its difficulty assessments based on its evolving capabilities during online training. To enable intuitive user interaction, we design explicit length-triggered tags that function as a natural interface for budget control. Empirical results show that AdaCtrl adapts reasoning length based on estimated difficulty, compared to the standard training baseline that also incorporates fine-tuning and RL, it yields performance improvements and simultaneously reduces response length by 10.06% and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K datasets, where more concise responses are sufficient. Furthermore, AdaCtrl enables precise user control over the reasoning budget, allowing for tailored responses to meet specific needs.

Summary

AI-Generated Summary

PDF142May 27, 2025