ThinkDial: Uma Receita Aberta para Controlar o Esforço de Raciocínio em Modelos de Linguagem de Grande Escala
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
August 26, 2025
Autores: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) com raciocínio em cadeia de pensamento têm demonstrado capacidades notáveis de resolução de problemas, mas controlar seu esforço computacional continua sendo um desafio significativo para implantação prática. Sistemas proprietários recentes, como a série gpt-oss da OpenAI, introduziram modos operacionais discretos para controle intuitivo do raciocínio, mas a comunidade de código aberto em grande parte não conseguiu alcançar tais capacidades. Neste artigo, apresentamos o ThinkDial, o primeiro framework de código aberto de ponta a ponta que implementa com sucesso o raciocínio controlável no estilo gpt-oss por meio de modos operacionais discretos. Nosso sistema permite a alternância perfeita entre três regimes distintos de raciocínio: Modo Alto (capacidade total de raciocínio), Modo Médio (redução de 50% nos tokens com degradação de desempenho <10%) e Modo Baixo (redução de 75% nos tokens com degradação de desempenho <15%). Isso é alcançado por meio de um paradigma de treinamento de ponta a ponta que integra o controle de modo de orçamento em todo o pipeline: ajuste fino supervisionado em modo de orçamento que incorpora capacidades de raciocínio controlável diretamente no processo de aprendizagem, e aprendizado por reforço em duas fases com modelagem adaptativa de recompensas. Experimentos extensivos demonstram que o ThinkDial atinge compensações desejadas entre compressão e desempenho, com reduções claras no comprimento das respostas, mantendo os limiares de desempenho. O framework também exibe fortes capacidades de generalização em tarefas fora da distribuição.
English
Large language models (LLMs) with chain-of-thought reasoning have
demonstrated remarkable problem-solving capabilities, but controlling their
computational effort remains a significant challenge for practical deployment.
Recent proprietary systems like OpenAI's gpt-oss series have introduced
discrete operational modes for intuitive reasoning control, but the open-source
community has largely failed to achieve such capabilities. In this paper, we
introduce ThinkDial, the first open-recipe end-to-end framework that
successfully implements gpt-oss-style controllable reasoning through discrete
operational modes. Our system enables seamless switching between three distinct
reasoning regimes: High mode (full reasoning capability), Medium mode (50
percent token reduction with <10 percent performance degradation), and Low mode
(75 percent token reduction with <15 percent performance degradation). We
achieve this through an end-to-end training paradigm that integrates
budget-mode control throughout the entire pipeline: budget-mode supervised
fine-tuning that embeds controllable reasoning capabilities directly into the
learning process, and two-phase budget-aware reinforcement learning with
adaptive reward shaping. Extensive experiments demonstrate that ThinkDial
achieves target compression-performance trade-offs with clear response length
reductions while maintaining performance thresholds. The framework also
exhibits strong generalization capabilities on out-of-distribution tasks.