Cammina Prima di Correre! Ragionamento Conciso nei Modelli Linguistici di Grande Dimensione tramite Apprendimento per Rinforzo
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning
May 27, 2025
Autori: Mingyang Song, Mao Zheng
cs.AI
Abstract
Man mano che il ridimensionamento al momento del test diventa una frontiera di ricerca cruciale nello sviluppo dei Large Language Models (LLM), le metodologie avanzate e contemporanee di post-addestramento si concentrano sempre più sull'estensione della lunghezza di generazione delle risposte lunghe a catena di pensiero (Chain-of-Thought, CoT) per migliorare le capacità di ragionamento verso prestazioni simili a DeepSeek R1. Tuttavia, studi recenti rivelano un fenomeno persistente di sovrapensiero nei modelli di ragionamento all'avanguardia, che si manifesta come ridondanza eccessiva o schemi di pensiero ripetitivi nelle risposte CoT lunghe. Per affrontare questo problema, in questo articolo proponiamo un framework di apprendimento per rinforzo semplice ma efficace in due fasi per ottenere un ragionamento conciso nei LLM, denominato ConciseR. Nello specifico, la prima fase, che utilizza più passi di addestramento, mira a incentivare le capacità di ragionamento del modello tramite l'ottimizzazione relativa delle politiche di gruppo con componenti di clip-higher e campionamento dinamico (GRPO++), mentre la seconda fase, che utilizza meno passi di addestramento, impone esplicitamente la concisione e migliora l'efficienza tramite l'ottimizzazione relativa delle politiche di gruppo con consapevolezza della lunghezza (L-GRPO). In modo significativo, ConciseR ottimizza la lunghezza della risposta solo dopo che tutti i rollout di un campione sono corretti, seguendo il principio "cammina prima di correre". I risultati sperimentali estesi dimostrano che il nostro modello ConciseR, che genera risposte CoT di ragionamento più concise, supera i recenti modelli di ragionamento all'avanguardia con paradigma RL zero su benchmark come AIME 2024, MATH-500, AMC 2023, Minerva e Olympiad.
English
As test-time scaling becomes a pivotal research frontier in Large Language
Models (LLMs) development, contemporary and advanced post-training
methodologies increasingly focus on extending the generation length of long
Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward
DeepSeek R1-like performance. However, recent studies reveal a persistent
overthinking phenomenon in state-of-the-art reasoning models, manifesting as
excessive redundancy or repetitive thinking patterns in long CoT responses. To
address this issue, in this paper, we propose a simple yet effective two-stage
reinforcement learning framework for achieving concise reasoning in LLMs, named
ConciseR. Specifically, the first stage, using more training steps, aims to
incentivize the model's reasoning capabilities via Group Relative Policy
Optimization with clip-higher and dynamic sampling components (GRPO++), and the
second stage, using fewer training steps, explicitly enforces conciseness and
improves efficiency via Length-aware Group Relative Policy Optimization
(L-GRPO). Significantly, ConciseR only optimizes response length once all
rollouts of a sample are correct, following the "walk before you run"
principle. Extensive experimental results demonstrate that our ConciseR model,
which generates more concise CoT reasoning responses, outperforms recent
state-of-the-art reasoning models with zero RL paradigm across AIME 2024,
MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.