Gehe, bevor du rennst! Präzises Schlussfolgern bei großen Sprachmodellen durch Reinforcement Learning
Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning
May 27, 2025
papers.authors: Mingyang Song, Mao Zheng
cs.AI
papers.abstract
Da sich das Testzeit-Skalieren zu einer zentralen Forschungsfront in der Entwicklung von Large Language Models (LLMs) entwickelt, konzentrieren sich moderne und fortschrittliche Post-Training-Methoden zunehmend darauf, die Generierungslänge langer Chain-of-Thought (CoT)-Antworten zu erweitern, um die Denkfähigkeiten in Richtung einer DeepSeek R1-ähnlichen Leistung zu verbessern. Jüngste Studien zeigen jedoch ein anhaltendes Overthinking-Phänomen in modernsten Denkmodellen, das sich als übermäßige Redundanz oder wiederholte Denkmuster in langen CoT-Antworten manifestiert. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein einfaches, aber effektives zweistufiges Reinforcement-Learning-Framework vor, um präzises Denken in LLMs zu erreichen, genannt ConciseR. Konkret zielt die erste Stufe, die mehr Trainingsschritte verwendet, darauf ab, die Denkfähigkeiten des Modells durch Group Relative Policy Optimization mit Clip-Higher- und Dynamic-Sampling-Komponenten (GRPO++) zu fördern, während die zweite Stufe, die weniger Trainingsschritte verwendet, explizit Prägnanz erzwingt und die Effizienz durch Length-aware Group Relative Policy Optimization (L-GRPO) verbessert. Bemerkenswerterweise optimiert ConciseR die Antwortlänge erst, wenn alle Rollouts einer Probe korrekt sind, gemäß dem Prinzip „erst gehen, dann laufen“. Umfangreiche experimentelle Ergebnisse zeigen, dass unser ConciseR-Modell, das prägnantere CoT-Denkantworten generiert, aktuelle state-of-the-art Denkmodelle mit dem Zero-RL-Paradigma auf den Benchmarks AIME 2024, MATH-500, AMC 2023, Minerva und Olympiad übertrifft.
English
As test-time scaling becomes a pivotal research frontier in Large Language
Models (LLMs) development, contemporary and advanced post-training
methodologies increasingly focus on extending the generation length of long
Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward
DeepSeek R1-like performance. However, recent studies reveal a persistent
overthinking phenomenon in state-of-the-art reasoning models, manifesting as
excessive redundancy or repetitive thinking patterns in long CoT responses. To
address this issue, in this paper, we propose a simple yet effective two-stage
reinforcement learning framework for achieving concise reasoning in LLMs, named
ConciseR. Specifically, the first stage, using more training steps, aims to
incentivize the model's reasoning capabilities via Group Relative Policy
Optimization with clip-higher and dynamic sampling components (GRPO++), and the
second stage, using fewer training steps, explicitly enforces conciseness and
improves efficiency via Length-aware Group Relative Policy Optimization
(L-GRPO). Significantly, ConciseR only optimizes response length once all
rollouts of a sample are correct, following the "walk before you run"
principle. Extensive experimental results demonstrate that our ConciseR model,
which generates more concise CoT reasoning responses, outperforms recent
state-of-the-art reasoning models with zero RL paradigm across AIME 2024,
MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.