ChatPaper.aiChatPaper

ThinkDial : Une recette ouverte pour contrôler l'effort de raisonnement dans les grands modèles de langage

ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

August 26, 2025
papers.authors: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) dotés de raisonnement en chaîne de pensée ont démontré des capacités remarquables de résolution de problèmes, mais le contrôle de leur effort computationnel reste un défi majeur pour leur déploiement pratique. Les systèmes propriétaires récents comme la série gpt-oss d'OpenAI ont introduit des modes opérationnels discrets pour un contrôle intuitif du raisonnement, mais la communauté open-source a largement échoué à atteindre de telles capacités. Dans cet article, nous présentons ThinkDial, le premier framework open-recipe de bout en bout qui implémente avec succès un raisonnement contrôlable de style gpt-oss grâce à des modes opérationnels discrets. Notre système permet un passage fluide entre trois régimes de raisonnement distincts : le mode Haut (capacité de raisonnement complète), le mode Moyen (réduction de 50 % des tokens avec une dégradation des performances inférieure à 10 %), et le mode Bas (réduction de 75 % des tokens avec une dégradation des performances inférieure à 15 %). Nous y parvenons grâce à un paradigme d'entraînement de bout en bout qui intègre le contrôle des modes budgétaires tout au long du pipeline : un fine-tuning supervisé en mode budgétaire qui intègre directement les capacités de raisonnement contrôlable dans le processus d'apprentissage, et un apprentissage par renforcement en deux phases avec récompense adaptative et prise en compte du budget. Des expériences approfondies démontrent que ThinkDial atteint des compromis ciblés entre compression et performance avec des réductions claires de la longueur des réponses tout en maintenant des seuils de performance. Le framework montre également de solides capacités de généralisation sur des tâches hors distribution.
English
Large language models (LLMs) with chain-of-thought reasoning have demonstrated remarkable problem-solving capabilities, but controlling their computational effort remains a significant challenge for practical deployment. Recent proprietary systems like OpenAI's gpt-oss series have introduced discrete operational modes for intuitive reasoning control, but the open-source community has largely failed to achieve such capabilities. In this paper, we introduce ThinkDial, the first open-recipe end-to-end framework that successfully implements gpt-oss-style controllable reasoning through discrete operational modes. Our system enables seamless switching between three distinct reasoning regimes: High mode (full reasoning capability), Medium mode (50 percent token reduction with <10 percent performance degradation), and Low mode (75 percent token reduction with <15 percent performance degradation). We achieve this through an end-to-end training paradigm that integrates budget-mode control throughout the entire pipeline: budget-mode supervised fine-tuning that embeds controllable reasoning capabilities directly into the learning process, and two-phase budget-aware reinforcement learning with adaptive reward shaping. Extensive experiments demonstrate that ThinkDial achieves target compression-performance trade-offs with clear response length reductions while maintaining performance thresholds. The framework also exhibits strong generalization capabilities on out-of-distribution tasks.
PDF42August 27, 2025