ChatPaper.aiChatPaper

ThinkDial: Een open recept voor het beheersen van denkinspanning in grote taalmodelen

ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

August 26, 2025
Auteurs: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI

Samenvatting

Grote taalmodellen (LLMs) met keten-van-gedachte-redenering hebben opmerkelijke probleemoplossende capaciteiten getoond, maar het beheersen van hun rekeninspanning blijft een aanzienlijke uitdaging voor praktische inzet. Recente propriëtaire systemen zoals OpenAI's gpt-oss-serie hebben discrete operationele modi geïntroduceerd voor intuïtieve controle over redenering, maar de open-sourcegemeenschap heeft grotendeels gefaald om dergelijke mogelijkheden te realiseren. In dit artikel introduceren we ThinkDial, het eerste open-recept end-to-end framework dat met succes gpt-oss-stijl beheersbare redenering implementeert via discrete operationele modi. Ons systeem maakt naadloos schakelen mogelijk tussen drie verschillende redeneerregimes: Hoge modus (volledige redeneercapaciteit), Medium modus (50 procent tokenreductie met <10 procent prestatieverlies), en Lage modus (75 procent tokenreductie met <15 procent prestatieverlies). We bereiken dit door een end-to-end trainingsparadigma dat budgetmoduscontrole integreert in de gehele pijplijn: budgetmodus supervised fine-tuning dat beheersbare redeneercapaciteiten direct in het leerproces inbedt, en tweefasen budgetbewuste reinforcement learning met adaptieve beloningsvorming. Uitgebreide experimenten tonen aan dat ThinkDial doelgerichte compressie-prestatieafwegingen bereikt met duidelijke reducties in antwoordlengte terwijl prestatiegrenzen worden gehandhaafd. Het framework vertoont ook sterke generalisatiecapaciteiten op taken buiten de distributie.
English
Large language models (LLMs) with chain-of-thought reasoning have demonstrated remarkable problem-solving capabilities, but controlling their computational effort remains a significant challenge for practical deployment. Recent proprietary systems like OpenAI's gpt-oss series have introduced discrete operational modes for intuitive reasoning control, but the open-source community has largely failed to achieve such capabilities. In this paper, we introduce ThinkDial, the first open-recipe end-to-end framework that successfully implements gpt-oss-style controllable reasoning through discrete operational modes. Our system enables seamless switching between three distinct reasoning regimes: High mode (full reasoning capability), Medium mode (50 percent token reduction with <10 percent performance degradation), and Low mode (75 percent token reduction with <15 percent performance degradation). We achieve this through an end-to-end training paradigm that integrates budget-mode control throughout the entire pipeline: budget-mode supervised fine-tuning that embeds controllable reasoning capabilities directly into the learning process, and two-phase budget-aware reinforcement learning with adaptive reward shaping. Extensive experiments demonstrate that ThinkDial achieves target compression-performance trade-offs with clear response length reductions while maintaining performance thresholds. The framework also exhibits strong generalization capabilities on out-of-distribution tasks.
PDF153August 27, 2025