ChatPaper.aiChatPaper

AdaCtrl: Auf dem Weg zu adaptivem und steuerbarem Reasoning durch schwierigkeitsbewusstes Budgeting

AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting

May 24, 2025
Autoren: Shijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung
cs.AI

Zusammenfassung

Moderne große Reasoning-Modelle zeigen beeindruckende Problemlösungsfähigkeiten durch den Einsatz ausgefeilter Reasoning-Strategien. Allerdings haben sie oft Schwierigkeiten, Effizienz und Effektivität in Einklang zu bringen, und erzeugen häufig unnötig lange Reasoning-Ketten für einfache Probleme. In dieser Arbeit schlagen wir AdaCtrl vor, ein neuartiges Framework, das sowohl eine schwierigkeitsabhängige adaptive Zuweisung des Reasoning-Budgets als auch eine explizite Benutzerkontrolle über die Reasoning-Tiefe unterstützt. AdaCtrl passt die Reasoning-Länge dynamisch basierend auf der selbst eingeschätzten Problemschwierigkeit an und ermöglicht es Benutzern gleichzeitig, das Budget manuell zu steuern, um entweder Effizienz oder Effektivität zu priorisieren. Dies wird durch eine zweistufige Trainingspipeline erreicht: eine anfängliche Cold-Start-Fine-Tuning-Phase, um die Fähigkeit zur Selbsteinschätzung der Schwierigkeit und zur Anpassung des Reasoning-Budgets zu vermitteln, gefolgt von einer schwierigkeitsabhängigen Reinforcement-Learning-(RL)-Phase, die die adaptiven Reasoning-Strategien des Modells verfeinert und seine Schwierigkeitseinschätzungen basierend auf seinen sich entwickelnden Fähigkeiten während des Online-Trainings kalibriert. Um eine intuitive Benutzerinteraktion zu ermöglichen, entwerfen wir explizite Längen-Trigger-Tags, die als natürliche Schnittstelle für die Budgetkontrolle fungieren. Empirische Ergebnisse zeigen, dass AdaCtrl die Reasoning-Länge basierend auf der geschätzten Schwierigkeit anpasst. Im Vergleich zum Standard-Training-Baseline, der ebenfalls Fine-Tuning und RL beinhaltet, erzielt es Leistungsverbesserungen und reduziert gleichzeitig die Antwortlänge um 10,06 % und 12,14 % auf den anspruchsvolleren AIME2024- und AIME2025-Datensätzen, die ein ausgefeiltes Reasoning erfordern, und um 62,05 % und 91,04 % auf den MATH500- und GSM8K-Datensätzen, bei denen prägnantere Antworten ausreichen. Darüber hinaus ermöglicht AdaCtrl eine präzise Benutzerkontrolle über das Reasoning-Budget, um maßgeschneiderte Antworten für spezifische Anforderungen zu liefern.
English
Modern large reasoning models demonstrate impressive problem-solving capabilities by employing sophisticated reasoning strategies. However, they often struggle to balance efficiency and effectiveness, frequently generating unnecessarily lengthy reasoning chains for simple problems. In this work, we propose AdaCtrl, a novel framework to support both difficulty-aware adaptive reasoning budget allocation and explicit user control over reasoning depth. AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem difficulty, while also allowing users to manually control the budget to prioritize either efficiency or effectiveness. This is achieved through a two-stage training pipeline: an initial cold-start fine-tuning phase to instill the ability to self-aware difficulty and adjust reasoning budget, followed by a difficulty-aware reinforcement learning (RL) stage that refines the model's adaptive reasoning strategies and calibrates its difficulty assessments based on its evolving capabilities during online training. To enable intuitive user interaction, we design explicit length-triggered tags that function as a natural interface for budget control. Empirical results show that AdaCtrl adapts reasoning length based on estimated difficulty, compared to the standard training baseline that also incorporates fine-tuning and RL, it yields performance improvements and simultaneously reduces response length by 10.06% and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K datasets, where more concise responses are sufficient. Furthermore, AdaCtrl enables precise user control over the reasoning budget, allowing for tailored responses to meet specific needs.

Summary

AI-Generated Summary

PDF142May 27, 2025