ThinkDial: Открытый рецепт управления уровнем усилий рассуждения в крупных языковых моделях
ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models
August 26, 2025
Авторы: Qianyu He, Siyu Yuan, Xuefeng Li, Mingxuan Wang, Jiangjie Chen
cs.AI
Аннотация
Крупные языковые модели (LLM) с цепочкой рассуждений продемонстрировали впечатляющие способности к решению задач, однако управление их вычислительными затратами остается серьезной проблемой для практического применения. Недавние проприетарные системы, такие как серия gpt-oss от OpenAI, представили дискретные режимы работы для интуитивного управления рассуждениями, но сообщество open-source в значительной степени не смогло достичь таких возможностей. В данной статье мы представляем ThinkDial — первую открытую end-to-end платформу, которая успешно реализует управляемое рассуждение в стиле gpt-oss через дискретные режимы работы. Наша система позволяет плавно переключаться между тремя различными режимами рассуждений: Высокий режим (полная способность к рассуждениям), Средний режим (сокращение количества токенов на 50% с ухудшением производительности менее чем на 10%) и Низкий режим (сокращение количества токенов на 75% с ухудшением производительности менее чем на 15%). Мы достигаем этого с помощью end-to-end парадигмы обучения, которая интегрирует управление бюджетными режимами на всех этапах: контролируемое тонкое обучение с бюджетными режимами, которое встраивает управляемые способности к рассуждениям непосредственно в процесс обучения, и двухэтапное обучение с подкреплением с учетом бюджета и адаптивным формированием наград. Многочисленные эксперименты показывают, что ThinkDial достигает целевых компромиссов между сжатием и производительностью с явным сокращением длины ответов при сохранении порогов производительности. Платформа также демонстрирует сильные способности к обобщению на задачах, выходящих за пределы распределения данных.
English
Large language models (LLMs) with chain-of-thought reasoning have
demonstrated remarkable problem-solving capabilities, but controlling their
computational effort remains a significant challenge for practical deployment.
Recent proprietary systems like OpenAI's gpt-oss series have introduced
discrete operational modes for intuitive reasoning control, but the open-source
community has largely failed to achieve such capabilities. In this paper, we
introduce ThinkDial, the first open-recipe end-to-end framework that
successfully implements gpt-oss-style controllable reasoning through discrete
operational modes. Our system enables seamless switching between three distinct
reasoning regimes: High mode (full reasoning capability), Medium mode (50
percent token reduction with <10 percent performance degradation), and Low mode
(75 percent token reduction with <15 percent performance degradation). We
achieve this through an end-to-end training paradigm that integrates
budget-mode control throughout the entire pipeline: budget-mode supervised
fine-tuning that embeds controllable reasoning capabilities directly into the
learning process, and two-phase budget-aware reinforcement learning with
adaptive reward shaping. Extensive experiments demonstrate that ThinkDial
achieves target compression-performance trade-offs with clear response length
reductions while maintaining performance thresholds. The framework also
exhibits strong generalization capabilities on out-of-distribution tasks.