AdaCtrl: Naar adaptief en beheersbaar redeneren via moeilijkheidsbewust budgetbeheer
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
May 24, 2025
Auteurs: Shijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung
cs.AI
Samenvatting
Moderne grote redeneermodellen tonen indrukwekkende probleemoplossende
vaardigheden door geavanceerde redeneerstrategieën te gebruiken. Ze hebben
echter vaak moeite om efficiëntie en effectiviteit in balans te brengen, waarbij
ze onnodig lange redeneerketens genereren voor eenvoudige problemen. In dit werk
stellen we AdaCtrl voor, een nieuw framework dat zowel moeilijkheidsbewuste
adaptieve toewijzing van redeneerbudgetten ondersteunt als expliciete gebruikerscontrole
over de redeneerdiepte. AdaCtrl past dynamisch de redeneerlengte aan op basis van
zelfingeschatte probleemmoeilijkheid, terwijl het gebruikers ook in staat stelt
handmatig het budget te beheren om prioriteit te geven aan efficiëntie of effectiviteit.
Dit wordt bereikt via een tweefasig trainingspijplijn: een initiële cold-start
fine-tuningfase om het vermogen tot zelfbewuste moeilijkheidsinschatting en
budgetaanpassing aan te leren, gevolgd door een moeilijkheidsbewuste reinforcement
learning (RL)-fase die de adaptieve redeneerstrategieën van het model verfijnt en
zijn moeilijkheidsbeoordelingen kalibreert op basis van zijn evoluerende
mogelijkheden tijdens online training. Om intuïtieve gebruikersinteractie mogelijk
te maken, ontwerpen we expliciete lengte-geactiveerde tags die fungeren als een
natuurlijke interface voor budgetcontrole. Empirische resultaten tonen aan dat
AdaCtrl de redeneerlengte aanpast op basis van geschatte moeilijkheid. Vergeleken
met de standaard trainingsbaseline die ook fine-tuning en RL omvat, levert het
prestatieverbeteringen op en reduceert het tegelijkertijd de responslengte met
10,06% en 12,14% op de uitdagendere AIME2024- en AIME2025-datasets, die uitgebreid
redeneren vereisen, en met 62,05% en 91,04% op de MATH500- en GSM8K-datasets,
waar meer beknopte antwoorden voldoende zijn. Bovendien stelt AdaCtrl gebruikers
in staat om precieze controle uit te oefenen over het redeneerbudget, waardoor
op maat gemaakte antwoorden mogelijk zijn om aan specifieke behoeften te voldoen.
English
Modern large reasoning models demonstrate impressive problem-solving
capabilities by employing sophisticated reasoning strategies. However, they
often struggle to balance efficiency and effectiveness, frequently generating
unnecessarily lengthy reasoning chains for simple problems. In this work, we
propose AdaCtrl, a novel framework to support both difficulty-aware adaptive
reasoning budget allocation and explicit user control over reasoning depth.
AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem
difficulty, while also allowing users to manually control the budget to
prioritize either efficiency or effectiveness. This is achieved through a
two-stage training pipeline: an initial cold-start fine-tuning phase to instill
the ability to self-aware difficulty and adjust reasoning budget, followed by a
difficulty-aware reinforcement learning (RL) stage that refines the model's
adaptive reasoning strategies and calibrates its difficulty assessments based
on its evolving capabilities during online training. To enable intuitive user
interaction, we design explicit length-triggered tags that function as a
natural interface for budget control. Empirical results show that AdaCtrl
adapts reasoning length based on estimated difficulty, compared to the standard
training baseline that also incorporates fine-tuning and RL, it yields
performance improvements and simultaneously reduces response length by 10.06%
and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which
require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K
datasets, where more concise responses are sufficient. Furthermore, AdaCtrl
enables precise user control over the reasoning budget, allowing for tailored
responses to meet specific needs.