ThinkDial: Uma Receita Aberta para Controlar o Esforço de Raciocínio em Modelos de Linguagem de Grande Escala

Resumo

Modelos de linguagem de grande escala (LLMs) com raciocínio em cadeia de pensamento têm demonstrado capacidades notáveis de resolução de problemas, mas controlar seu esforço computacional continua sendo um desafio significativo para implantação prática. Sistemas proprietários recentes, como a série gpt-oss da OpenAI, introduziram modos operacionais discretos para controle intuitivo do raciocínio, mas a comunidade de código aberto em grande parte não conseguiu alcançar tais capacidades. Neste artigo, apresentamos o ThinkDial, o primeiro framework de código aberto de ponta a ponta que implementa com sucesso o raciocínio controlável no estilo gpt-oss por meio de modos operacionais discretos. Nosso sistema permite a alternância perfeita entre três regimes distintos de raciocínio: Modo Alto (capacidade total de raciocínio), Modo Médio (redução de 50% nos tokens com degradação de desempenho <10%) e Modo Baixo (redução de 75% nos tokens com degradação de desempenho <15%). Isso é alcançado por meio de um paradigma de treinamento de ponta a ponta que integra o controle de modo de orçamento em todo o pipeline: ajuste fino supervisionado em modo de orçamento que incorpora capacidades de raciocínio controlável diretamente no processo de aprendizagem, e aprendizado por reforço em duas fases com modelagem adaptativa de recompensas. Experimentos extensivos demonstram que o ThinkDial atinge compensações desejadas entre compressão e desempenho, com reduções claras no comprimento das respostas, mantendo os limiares de desempenho. O framework também exibe fortes capacidades de generalização em tarefas fora da distribuição.

English

Large language models (LLMs) with chain-of-thought reasoning have demonstrated remarkable problem-solving capabilities, but controlling their computational effort remains a significant challenge for practical deployment. Recent proprietary systems like OpenAI's gpt-oss series have introduced discrete operational modes for intuitive reasoning control, but the open-source community has largely failed to achieve such capabilities. In this paper, we introduce ThinkDial, the first open-recipe end-to-end framework that successfully implements gpt-oss-style controllable reasoning through discrete operational modes. Our system enables seamless switching between three distinct reasoning regimes: High mode (full reasoning capability), Medium mode (50 percent token reduction with <10 percent performance degradation), and Low mode (75 percent token reduction with <15 percent performance degradation). We achieve this through an end-to-end training paradigm that integrates budget-mode control throughout the entire pipeline: budget-mode supervised fine-tuning that embeds controllable reasoning capabilities directly into the learning process, and two-phase budget-aware reinforcement learning with adaptive reward shaping. Extensive experiments demonstrate that ThinkDial achieves target compression-performance trade-offs with clear response length reductions while maintaining performance thresholds. The framework also exhibits strong generalization capabilities on out-of-distribution tasks.

ThinkDial: Uma Receita Aberta para Controlar o Esforço de Raciocínio em Modelos de Linguagem de Grande Escala

ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Resumo

Support