Иди, прежде чем бежать! Краткое рассуждение в больших языковых моделях с помощью обучения с подкреплением
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning
May 27, 2025
Авторы: Mingyang Song, Mao Zheng
cs.AI
Аннотация
Поскольку масштабирование во время тестирования становится ключевым направлением исследований в разработке крупных языковых моделей (LLM), современные и передовые методы пост-обучения всё больше сосредотачиваются на увеличении длины генерации длинных цепочек рассуждений (Chain-of-Thought, CoT) для улучшения способностей к рассуждению, приближаясь к уровню производительности DeepSeek R1. Однако последние исследования выявили устойчивое явление "переобдумывания" в современных моделях рассуждений, проявляющееся в избыточной избыточности или повторяющихся паттернах мышления в длинных CoT-ответах. Для решения этой проблемы в данной статье мы предлагаем простую, но эффективную двухэтапную структуру обучения с подкреплением для достижения лаконичности рассуждений в LLM, названную ConciseR. В частности, первый этап, использующий больше шагов обучения, направлен на стимулирование способностей модели к рассуждению с помощью групповой относительной оптимизации политики с компонентами clip-higher и динамической выборки (GRPO++), а второй этап, использующий меньше шагов обучения, явно обеспечивает лаконичность и повышает эффективность с помощью групповой относительной оптимизации политики с учётом длины (L-GRPO). Важно отметить, что ConciseR оптимизирует длину ответа только после того, как все прогоны образца оказываются правильными, следуя принципу "сначала научись ходить, потом бегать". Обширные экспериментальные результаты демонстрируют, что наша модель ConciseR, генерирующая более лаконичные CoT-ответы, превосходит современные модели рассуждений с нулевым обучением с подкреплением на таких тестах, как AIME 2024, MATH-500, AMC 2023, Minerva и олимпиадные бенчмарки.
English
As test-time scaling becomes a pivotal research frontier in Large Language
Models (LLMs) development, contemporary and advanced post-training
methodologies increasingly focus on extending the generation length of long
Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward
DeepSeek R1-like performance. However, recent studies reveal a persistent
overthinking phenomenon in state-of-the-art reasoning models, manifesting as
excessive redundancy or repetitive thinking patterns in long CoT responses. To
address this issue, in this paper, we propose a simple yet effective two-stage
reinforcement learning framework for achieving concise reasoning in LLMs, named
ConciseR. Specifically, the first stage, using more training steps, aims to
incentivize the model's reasoning capabilities via Group Relative Policy
Optimization with clip-higher and dynamic sampling components (GRPO++), and the
second stage, using fewer training steps, explicitly enforces conciseness and
improves efficiency via Length-aware Group Relative Policy Optimization
(L-GRPO). Significantly, ConciseR only optimizes response length once all
rollouts of a sample are correct, following the "walk before you run"
principle. Extensive experimental results demonstrate that our ConciseR model,
which generates more concise CoT reasoning responses, outperforms recent
state-of-the-art reasoning models with zero RL paradigm across AIME 2024,
MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.Summary
AI-Generated Summary