AdaCtrl: Verso un ragionamento adattivo e controllabile attraverso un budgeting consapevole della difficoltà
AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
May 24, 2025
Autori: Shijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung
cs.AI
Abstract
I moderni modelli di ragionamento su larga scala dimostrano impressionanti capacità di risoluzione dei problemi grazie all'impiego di strategie di ragionamento sofisticate. Tuttavia, spesso faticano a bilanciare efficienza ed efficacia, generando frequentemente catene di ragionamento eccessivamente lunghe per problemi semplici. In questo lavoro, proponiamo AdaCtrl, un nuovo framework che supporta sia l'allocazione adattiva del budget di ragionamento basata sulla difficoltà, sia il controllo esplicito dell'utente sulla profondità del ragionamento. AdaCtrl regola dinamicamente la lunghezza del ragionamento in base alla difficoltà auto-valutata del problema, consentendo inoltre agli utenti di controllare manualmente il budget per privilegiare l'efficienza o l'efficacia. Questo è ottenuto attraverso una pipeline di addestramento in due fasi: una fase iniziale di fine-tuning a freddo per instillare la capacità di auto-valutare la difficoltà e regolare il budget di ragionamento, seguita da una fase di reinforcement learning (RL) basata sulla difficoltà che affina le strategie di ragionamento adattivo del modello e calibra le sue valutazioni della difficoltà in base alle sue capacità in evoluzione durante l'addestramento online. Per consentire un'interazione intuitiva con l'utente, progettiamo tag espliciti attivati dalla lunghezza che fungono da interfaccia naturale per il controllo del budget. I risultati empirici mostrano che AdaCtrl adatta la lunghezza del ragionamento in base alla difficoltà stimata; rispetto alla baseline di addestramento standard che include anche fine-tuning e RL, migliora le prestazioni e riduce simultaneamente la lunghezza delle risposte del 10,06% e del 12,14% sui dataset più impegnativi AIME2024 e AIME2025, che richiedono un ragionamento elaborato, e del 62,05% e del 91,04% sui dataset MATH500 e GSM8K, dove sono sufficienti risposte più concise. Inoltre, AdaCtrl consente un controllo preciso dell'utente sul budget di ragionamento, permettendo risposte personalizzate per soddisfare esigenze specifiche.
English
Modern large reasoning models demonstrate impressive problem-solving
capabilities by employing sophisticated reasoning strategies. However, they
often struggle to balance efficiency and effectiveness, frequently generating
unnecessarily lengthy reasoning chains for simple problems. In this work, we
propose AdaCtrl, a novel framework to support both difficulty-aware adaptive
reasoning budget allocation and explicit user control over reasoning depth.
AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem
difficulty, while also allowing users to manually control the budget to
prioritize either efficiency or effectiveness. This is achieved through a
two-stage training pipeline: an initial cold-start fine-tuning phase to instill
the ability to self-aware difficulty and adjust reasoning budget, followed by a
difficulty-aware reinforcement learning (RL) stage that refines the model's
adaptive reasoning strategies and calibrates its difficulty assessments based
on its evolving capabilities during online training. To enable intuitive user
interaction, we design explicit length-triggered tags that function as a
natural interface for budget control. Empirical results show that AdaCtrl
adapts reasoning length based on estimated difficulty, compared to the standard
training baseline that also incorporates fine-tuning and RL, it yields
performance improvements and simultaneously reduces response length by 10.06%
and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which
require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K
datasets, where more concise responses are sufficient. Furthermore, AdaCtrl
enables precise user control over the reasoning budget, allowing for tailored
responses to meet specific needs.