ThinkDial: 大規模言語モデルにおける推論努力を制御するためのオープンレシピ
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
August 26, 2025
著者: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI
要旨
連鎖的思考推論を備えた大規模言語モデル(LLMs)は、驚異的な問題解決能力を発揮していますが、その計算コストを制御することは実用化における重要な課題です。最近では、OpenAIのgpt-ossシリーズなどのプロプライエタリシステムが、直感的な推論制御のための離散的な操作モードを導入しましたが、オープンソースコミュニティではそのような機能を実現することがほとんどできていません。本論文では、ThinkDialを紹介します。これは、離散的な操作モードを通じてgpt-ossスタイルの制御可能な推論を実現する初めてのオープンレシピエンドツーエンドフレームワークです。私たちのシステムは、3つの異なる推論レジーム間のシームレスな切り替えを可能にします:ハイモード(完全な推論能力)、ミディアムモード(50%のトークン削減と10%未満の性能低下)、ローモード(75%のトークン削減と15%未満の性能低下)。これを実現するために、エンドツーエンドのトレーニングパラダイムを採用し、パイプライン全体にわたってバジェットモード制御を統合しました:学習プロセスに直接制御可能な推論能力を組み込むバジェットモードの教師ありファインチューニング、および適応的報酬形成を備えた2段階のバジェット対応強化学習です。大規模な実験により、ThinkDialが目標とする圧縮と性能のトレードオフを達成し、明確な応答長の削減を維持しながら性能閾値を維持することが示されました。また、このフレームワークは、分布外タスクにおいても強い汎化能力を示しています。
English
Large language models (LLMs) with chain-of-thought reasoning have
demonstrated remarkable problem-solving capabilities, but controlling their
computational effort remains a significant challenge for practical deployment.
Recent proprietary systems like OpenAI's gpt-oss series have introduced
discrete operational modes for intuitive reasoning control, but the open-source
community has largely failed to achieve such capabilities. In this paper, we
introduce ThinkDial, the first open-recipe end-to-end framework that
successfully implements gpt-oss-style controllable reasoning through discrete
operational modes. Our system enables seamless switching between three distinct
reasoning regimes: High mode (full reasoning capability), Medium mode (50
percent token reduction with <10 percent performance degradation), and Low mode
(75 percent token reduction with <15 percent performance degradation). We
achieve this through an end-to-end training paradigm that integrates
budget-mode control throughout the entire pipeline: budget-mode supervised
fine-tuning that embeds controllable reasoning capabilities directly into the
learning process, and two-phase budget-aware reinforcement learning with
adaptive reward shaping. Extensive experiments demonstrate that ThinkDial
achieves target compression-performance trade-offs with clear response length
reductions while maintaining performance thresholds. The framework also
exhibits strong generalization capabilities on out-of-distribution tasks.