Искусство эффективного рассуждения: данные, вознаграждение и оптимизация
The Art of Efficient Reasoning: Data, Reward, and Optimization
February 24, 2026
Авторы: Taiqiang Wu, Zenan Zu, Bo Zhou, Ngai Wong
cs.AI
Аннотация
Крупные языковые модели (LLM) стабильно улучшают свои показатели благодаря масштабированию цепочек рассуждений (Chain-of-Thought, CoT), однако это сопровождается значительными вычислительными затратами. Для решения данной проблемы в рамках эффективного логического вывода ставится задача стимулирования коротких, но точных траекторий мышления, как правило, с помощью формирования функции вознаграждения в обучении с подкреплением (Reinforcement Learning, RL). В данной работе мы систематически исследуем механизмы эффективного логического вывода в LLM. Для всесторонней оценки мы предлагаем использовать более детализированные метрики, включая распределение длины рассуждений в зависимости от их правильности и производительность в широком диапазоне бюджетов токенов — от 2 тыс. до 32 тыс. Во-первых, мы показываем, что процесс обучения следует двухэтапной парадигме: адаптации длины и уточнения рассуждений. Затем мы проводим масштабные эксперименты (около 0.2 млн GPU-часов) в едином протоколе, декомпозируя обучающие промпты и траектории, формирование вознаграждения и стратегии оптимизации. В частности, ключевым выводом является необходимость обучения на относительно более простых промптах, что обеспечивает плотность позитивных сигналов вознаграждения и, тем самым, предотвращает коллапс длины. При этом усвоенная смещенность в отношении длины может быть перенесена между доменами. Мы обобщаем все полученные результаты в виде ценных инсайтов и практических рекомендаций, а также дополнительно проверяем их на серии моделей Qwen3, масштабируя от 0.6B до 30B параметров, что демонстрирует их надежность и обобщаемость.
English
Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.