Ande Antes de Correr! Raciocínio Conciso em LLMs via Aprendizado por Reforço
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning
May 27, 2025
Autores: Mingyang Song, Mao Zheng
cs.AI
Resumo
À medida que o dimensionamento em tempo de teste se torna uma fronteira crucial de pesquisa no desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs), as metodologias contemporâneas e avançadas de pós-treinamento estão cada vez mais focadas em estender o comprimento da geração de respostas longas de Cadeia de Pensamento (CoT) para aprimorar as capacidades de raciocínio em direção a um desempenho semelhante ao DeepSeek R1. No entanto, estudos recentes revelam um fenômeno persistente de "overthinking" em modelos de raciocínio state-of-the-art, manifestando-se como redundância excessiva ou padrões de pensamento repetitivos em respostas longas de CoT. Para abordar esse problema, neste artigo, propomos uma estrutura simples, porém eficaz, de aprendizado por reforço em dois estágios para alcançar raciocínio conciso em LLMs, denominada ConciseR. Especificamente, o primeiro estágio, utilizando mais etapas de treinamento, visa incentivar as capacidades de raciocínio do modelo por meio da Otimização de Política Relativa em Grupo com componentes de recorte superior e amostragem dinâmica (GRPO++), enquanto o segundo estágio, utilizando menos etapas de treinamento, impõe explicitamente a concisão e melhora a eficiência por meio da Otimização de Política Relativa em Grupo Consciente do Comprimento (L-GRPO). De forma significativa, o ConciseR otimiza o comprimento da resposta apenas quando todas as execuções de uma amostra estão corretas, seguindo o princípio de "andar antes de correr". Resultados experimentais extensivos demonstram que nosso modelo ConciseR, que gera respostas de raciocínio CoT mais concisas, supera os modelos de raciocínio state-of-the-art recentes com o paradigma de RL zero em benchmarks como AIME 2024, MATH-500, AMC 2023, Minerva e Olimpíadas.
English
As test-time scaling becomes a pivotal research frontier in Large Language
Models (LLMs) development, contemporary and advanced post-training
methodologies increasingly focus on extending the generation length of long
Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward
DeepSeek R1-like performance. However, recent studies reveal a persistent
overthinking phenomenon in state-of-the-art reasoning models, manifesting as
excessive redundancy or repetitive thinking patterns in long CoT responses. To
address this issue, in this paper, we propose a simple yet effective two-stage
reinforcement learning framework for achieving concise reasoning in LLMs, named
ConciseR. Specifically, the first stage, using more training steps, aims to
incentivize the model's reasoning capabilities via Group Relative Policy
Optimization with clip-higher and dynamic sampling components (GRPO++), and the
second stage, using fewer training steps, explicitly enforces conciseness and
improves efficiency via Length-aware Group Relative Policy Optimization
(L-GRPO). Significantly, ConciseR only optimizes response length once all
rollouts of a sample are correct, following the "walk before you run"
principle. Extensive experimental results demonstrate that our ConciseR model,
which generates more concise CoT reasoning responses, outperforms recent
state-of-the-art reasoning models with zero RL paradigm across AIME 2024,
MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.