AdaCtrl : Vers un raisonnement adaptatif et contrôlable via une budgétisation sensible à la difficulté

Résumé

Les modèles modernes de raisonnement à grande échelle démontrent des capacités impressionnantes de résolution de problèmes en employant des stratégies de raisonnement sophistiquées. Cependant, ils éprouvent souvent des difficultés à équilibrer efficacité et performance, générant fréquemment des chaînes de raisonnement inutilement longues pour des problèmes simples. Dans ce travail, nous proposons AdaCtrl, un cadre novateur visant à soutenir à la fois une allocation adaptative du budget de raisonnement en fonction de la difficulté et un contrôle explicite de l'utilisateur sur la profondeur du raisonnement. AdaCtrl ajuste dynamiquement la longueur de son raisonnement en fonction de l'évaluation auto-perçue de la difficulté du problème, tout en permettant aux utilisateurs de contrôler manuellement le budget pour privilégier soit l'efficacité, soit la performance. Cela est réalisé grâce à un pipeline d'entraînement en deux étapes : une phase initiale de fine-tuning à froid pour inculquer la capacité d'auto-évaluer la difficulté et d'ajuster le budget de raisonnement, suivie d'une étape d'apprentissage par renforcement (RL) sensible à la difficulté qui affine les stratégies de raisonnement adaptatives du modèle et calibre ses évaluations de difficulté en fonction de ses capacités évolutives pendant l'entraînement en ligne. Pour permettre une interaction intuitive avec l'utilisateur, nous concevons des étiquettes explicites déclenchées par la longueur, qui servent d'interface naturelle pour le contrôle du budget. Les résultats empiriques montrent qu'AdaCtrl adapte la longueur du raisonnement en fonction de la difficulté estimée. Par rapport à la base de référence d'entraînement standard qui intègre également le fine-tuning et le RL, il améliore les performances tout en réduisant la longueur des réponses de 10,06 % et 12,14 % sur les ensembles de données plus exigeants AIME2024 et AIME2025, qui nécessitent un raisonnement élaboré, et de 62,05 % et 91,04 % sur les ensembles de données MATH500 et GSM8K, où des réponses plus concises suffisent. En outre, AdaCtrl permet un contrôle précis de l'utilisateur sur le budget de raisonnement, permettant des réponses sur mesure pour répondre à des besoins spécifiques.

English

Modern large reasoning models demonstrate impressive problem-solving capabilities by employing sophisticated reasoning strategies. However, they often struggle to balance efficiency and effectiveness, frequently generating unnecessarily lengthy reasoning chains for simple problems. In this work, we propose AdaCtrl, a novel framework to support both difficulty-aware adaptive reasoning budget allocation and explicit user control over reasoning depth. AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem difficulty, while also allowing users to manually control the budget to prioritize either efficiency or effectiveness. This is achieved through a two-stage training pipeline: an initial cold-start fine-tuning phase to instill the ability to self-aware difficulty and adjust reasoning budget, followed by a difficulty-aware reinforcement learning (RL) stage that refines the model's adaptive reasoning strategies and calibrates its difficulty assessments based on its evolving capabilities during online training. To enable intuitive user interaction, we design explicit length-triggered tags that function as a natural interface for budget control. Empirical results show that AdaCtrl adapts reasoning length based on estimated difficulty, compared to the standard training baseline that also incorporates fine-tuning and RL, it yields performance improvements and simultaneously reduces response length by 10.06% and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K datasets, where more concise responses are sufficient. Furthermore, AdaCtrl enables precise user control over the reasoning budget, allowing for tailored responses to meet specific needs.