ThinkDial: Открытый рецепт управления уровнем усилий рассуждения в крупных языковых моделях

Аннотация

Крупные языковые модели (LLM) с цепочкой рассуждений продемонстрировали впечатляющие способности к решению задач, однако управление их вычислительными затратами остается серьезной проблемой для практического применения. Недавние проприетарные системы, такие как серия gpt-oss от OpenAI, представили дискретные режимы работы для интуитивного управления рассуждениями, но сообщество open-source в значительной степени не смогло достичь таких возможностей. В данной статье мы представляем ThinkDial — первую открытую end-to-end платформу, которая успешно реализует управляемое рассуждение в стиле gpt-oss через дискретные режимы работы. Наша система позволяет плавно переключаться между тремя различными режимами рассуждений: Высокий режим (полная способность к рассуждениям), Средний режим (сокращение количества токенов на 50% с ухудшением производительности менее чем на 10%) и Низкий режим (сокращение количества токенов на 75% с ухудшением производительности менее чем на 15%). Мы достигаем этого с помощью end-to-end парадигмы обучения, которая интегрирует управление бюджетными режимами на всех этапах: контролируемое тонкое обучение с бюджетными режимами, которое встраивает управляемые способности к рассуждениям непосредственно в процесс обучения, и двухэтапное обучение с подкреплением с учетом бюджета и адаптивным формированием наград. Многочисленные эксперименты показывают, что ThinkDial достигает целевых компромиссов между сжатием и производительностью с явным сокращением длины ответов при сохранении порогов производительности. Платформа также демонстрирует сильные способности к обобщению на задачах, выходящих за пределы распределения данных.

English

Large language models (LLMs) with chain-of-thought reasoning have demonstrated remarkable problem-solving capabilities, but controlling their computational effort remains a significant challenge for practical deployment. Recent proprietary systems like OpenAI's gpt-oss series have introduced discrete operational modes for intuitive reasoning control, but the open-source community has largely failed to achieve such capabilities. In this paper, we introduce ThinkDial, the first open-recipe end-to-end framework that successfully implements gpt-oss-style controllable reasoning through discrete operational modes. Our system enables seamless switching between three distinct reasoning regimes: High mode (full reasoning capability), Medium mode (50 percent token reduction with <10 percent performance degradation), and Low mode (75 percent token reduction with <15 percent performance degradation). We achieve this through an end-to-end training paradigm that integrates budget-mode control throughout the entire pipeline: budget-mode supervised fine-tuning that embeds controllable reasoning capabilities directly into the learning process, and two-phase budget-aware reinforcement learning with adaptive reward shaping. Extensive experiments demonstrate that ThinkDial achieves target compression-performance trade-offs with clear response length reductions while maintaining performance thresholds. The framework also exhibits strong generalization capabilities on out-of-distribution tasks.

ThinkDial: Открытый рецепт управления уровнем усилий рассуждения в крупных языковых моделях

ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

Аннотация

Support