ChatPaper.aiChatPaper

Loop Voordat Je Rent! Beknopt Redeneren met LLM's via Reinforcement Learning

Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

May 27, 2025
Auteurs: Mingyang Song, Mao Zheng
cs.AI

Samenvatting

Naarmate test-time scaling een cruciaal onderzoeksgebied wordt in de ontwikkeling van Large Language Models (LLMs), richten moderne en geavanceerde post-trainingsmethodologieën zich steeds meer op het verlengen van de generatielengte van lange Chain-of-Thought (CoT) reacties om de redeneervaardigheden te verbeteren richting DeepSeek R1-achtige prestaties. Recente studies onthullen echter een hardnekkig overdenkverschijnsel in state-of-the-art redeneermodellen, dat zich manifesteert als overmatige redundantie of repetitieve denkpatronen in lange CoT-reacties. Om dit probleem aan te pakken, stellen we in dit artikel een eenvoudig maar effectief tweestaps reinforcement learning framework voor om beknopt redeneren in LLMs te bereiken, genaamd ConciseR. Specifiek is het doel van de eerste fase, met meer trainingsstappen, om de redeneervaardigheden van het model te stimuleren via Group Relative Policy Optimization met clip-higher en dynamische sampling componenten (GRPO++), en de tweede fase, met minder trainingsstappen, dwingt expliciet beknoptheid af en verbetert de efficiëntie via Length-aware Group Relative Policy Optimization (L-GRPO). Belangrijk is dat ConciseR alleen de responslengte optimaliseert nadat alle rollouts van een voorbeeld correct zijn, volgens het "loop voordat je rent"-principe. Uitgebreide experimentele resultaten tonen aan dat ons ConciseR-model, dat meer beknopte CoT-redeneerreacties genereert, recente state-of-the-art redeneermodellen met het zero RL paradigma overtreft op de AIME 2024, MATH-500, AMC 2023, Minerva en Olympiad benchmarks.
English
As test-time scaling becomes a pivotal research frontier in Large Language Models (LLMs) development, contemporary and advanced post-training methodologies increasingly focus on extending the generation length of long Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward DeepSeek R1-like performance. However, recent studies reveal a persistent overthinking phenomenon in state-of-the-art reasoning models, manifesting as excessive redundancy or repetitive thinking patterns in long CoT responses. To address this issue, in this paper, we propose a simple yet effective two-stage reinforcement learning framework for achieving concise reasoning in LLMs, named ConciseR. Specifically, the first stage, using more training steps, aims to incentivize the model's reasoning capabilities via Group Relative Policy Optimization with clip-higher and dynamic sampling components (GRPO++), and the second stage, using fewer training steps, explicitly enforces conciseness and improves efficiency via Length-aware Group Relative Policy Optimization (L-GRPO). Significantly, ConciseR only optimizes response length once all rollouts of a sample are correct, following the "walk before you run" principle. Extensive experimental results demonstrate that our ConciseR model, which generates more concise CoT reasoning responses, outperforms recent state-of-the-art reasoning models with zero RL paradigm across AIME 2024, MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.
PDF62May 28, 2025