ThinkDial: Een open recept voor het beheersen van denkinspanning in grote taalmodelen
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
August 26, 2025
Auteurs: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI
Samenvatting
Grote taalmodellen (LLMs) met keten-van-gedachte-redenering hebben opmerkelijke probleemoplossende capaciteiten getoond, maar het beheersen van hun rekeninspanning blijft een aanzienlijke uitdaging voor praktische inzet. Recente propriëtaire systemen zoals OpenAI's gpt-oss-serie hebben discrete operationele modi geïntroduceerd voor intuïtieve controle over redenering, maar de open-sourcegemeenschap heeft grotendeels gefaald om dergelijke mogelijkheden te realiseren. In dit artikel introduceren we ThinkDial, het eerste open-recept end-to-end framework dat met succes gpt-oss-stijl beheersbare redenering implementeert via discrete operationele modi. Ons systeem maakt naadloos schakelen mogelijk tussen drie verschillende redeneerregimes: Hoge modus (volledige redeneercapaciteit), Medium modus (50 procent tokenreductie met <10 procent prestatieverlies), en Lage modus (75 procent tokenreductie met <15 procent prestatieverlies). We bereiken dit door een end-to-end trainingsparadigma dat budgetmoduscontrole integreert in de gehele pijplijn: budgetmodus supervised fine-tuning dat beheersbare redeneercapaciteiten direct in het leerproces inbedt, en tweefasen budgetbewuste reinforcement learning met adaptieve beloningsvorming. Uitgebreide experimenten tonen aan dat ThinkDial doelgerichte compressie-prestatieafwegingen bereikt met duidelijke reducties in antwoordlengte terwijl prestatiegrenzen worden gehandhaafd. Het framework vertoont ook sterke generalisatiecapaciteiten op taken buiten de distributie.
English
Large language models (LLMs) with chain-of-thought reasoning have
demonstrated remarkable problem-solving capabilities, but controlling their
computational effort remains a significant challenge for practical deployment.
Recent proprietary systems like OpenAI's gpt-oss series have introduced
discrete operational modes for intuitive reasoning control, but the open-source
community has largely failed to achieve such capabilities. In this paper, we
introduce ThinkDial, the first open-recipe end-to-end framework that
successfully implements gpt-oss-style controllable reasoning through discrete
operational modes. Our system enables seamless switching between three distinct
reasoning regimes: High mode (full reasoning capability), Medium mode (50
percent token reduction with <10 percent performance degradation), and Low mode
(75 percent token reduction with <15 percent performance degradation). We
achieve this through an end-to-end training paradigm that integrates
budget-mode control throughout the entire pipeline: budget-mode supervised
fine-tuning that embeds controllable reasoning capabilities directly into the
learning process, and two-phase budget-aware reinforcement learning with
adaptive reward shaping. Extensive experiments demonstrate that ThinkDial
achieves target compression-performance trade-offs with clear response length
reductions while maintaining performance thresholds. The framework also
exhibits strong generalization capabilities on out-of-distribution tasks.