ThinkDial : Une recette ouverte pour contrôler l'effort de raisonnement dans les grands modèles de langage
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
August 26, 2025
papers.authors: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) dotés de raisonnement en chaîne de pensée ont démontré des capacités remarquables de résolution de problèmes, mais le contrôle de leur effort computationnel reste un défi majeur pour leur déploiement pratique. Les systèmes propriétaires récents comme la série gpt-oss d'OpenAI ont introduit des modes opérationnels discrets pour un contrôle intuitif du raisonnement, mais la communauté open-source a largement échoué à atteindre de telles capacités. Dans cet article, nous présentons ThinkDial, le premier framework open-recipe de bout en bout qui implémente avec succès un raisonnement contrôlable de style gpt-oss grâce à des modes opérationnels discrets. Notre système permet un passage fluide entre trois régimes de raisonnement distincts : le mode Haut (capacité de raisonnement complète), le mode Moyen (réduction de 50 % des tokens avec une dégradation des performances inférieure à 10 %), et le mode Bas (réduction de 75 % des tokens avec une dégradation des performances inférieure à 15 %). Nous y parvenons grâce à un paradigme d'entraînement de bout en bout qui intègre le contrôle des modes budgétaires tout au long du pipeline : un fine-tuning supervisé en mode budgétaire qui intègre directement les capacités de raisonnement contrôlable dans le processus d'apprentissage, et un apprentissage par renforcement en deux phases avec récompense adaptative et prise en compte du budget. Des expériences approfondies démontrent que ThinkDial atteint des compromis ciblés entre compression et performance avec des réductions claires de la longueur des réponses tout en maintenant des seuils de performance. Le framework montre également de solides capacités de généralisation sur des tâches hors distribution.
English
Large language models (LLMs) with chain-of-thought reasoning have
demonstrated remarkable problem-solving capabilities, but controlling their
computational effort remains a significant challenge for practical deployment.
Recent proprietary systems like OpenAI's gpt-oss series have introduced
discrete operational modes for intuitive reasoning control, but the open-source
community has largely failed to achieve such capabilities. In this paper, we
introduce ThinkDial, the first open-recipe end-to-end framework that
successfully implements gpt-oss-style controllable reasoning through discrete
operational modes. Our system enables seamless switching between three distinct
reasoning regimes: High mode (full reasoning capability), Medium mode (50
percent token reduction with <10 percent performance degradation), and Low mode
(75 percent token reduction with <15 percent performance degradation). We
achieve this through an end-to-end training paradigm that integrates
budget-mode control throughout the entire pipeline: budget-mode supervised
fine-tuning that embeds controllable reasoning capabilities directly into the
learning process, and two-phase budget-aware reinforcement learning with
adaptive reward shaping. Extensive experiments demonstrate that ThinkDial
achieves target compression-performance trade-offs with clear response length
reductions while maintaining performance thresholds. The framework also
exhibits strong generalization capabilities on out-of-distribution tasks.