Die Kunst des effizienten Denkens: Daten, Belohnung und Optimierung

Zusammenfassung

Große Sprachmodelle (LLMs) profitieren konsequent von skaliertem Chain-of-Thought (CoT)-Reasoning, leiden aber auch unter hohem Rechenaufwand. Um dieses Problem zu adressieren, zielt effizientes Reasoning darauf ab, kurze und dennoch präzise Denkpfade zu fördern, typischerweise durch Reward Shaping mittels Reinforcement Learning (RL). In diesem Papier untersuchen wir systematisch die Mechanismen des effizienten Reasoning für LLMs. Für eine umfassende Evaluation plädieren wir für fein granulierte Metriken, einschließlich der Längenverteilung bedingt auf Korrektheit und der Leistung über ein breites Spektrum von Token-Budgets von 2k bis 32k. Zunächst zeigen wir auf, dass der Trainingsprozess einem Zwei-Phasen-Paradigma folgt: Längenadaptation und Reasoning-Verfeinerung. Anschließend führen wir umfangreiche Experimente (etwa 0,2 Millionen GPU-Stunden) in einem einheitlichen Protokoll durch, wobei wir Trainings-Prompts und Rollouts, Reward Shaping und Optimierungsstrategien dekonstruieren. Ein zentraler Befund ist dabei, dass das Training auf relativ einfacheren Prompts erfolgen sollte, um die Dichte positiver Belohnungssignale sicherzustellen und so einen Längenzusammenbruch zu vermeiden. Gleichzeitig kann die erlernte Längenverzerrung domänenübergreifend generalisiert werden. Wir destillieren alle Erkenntnisse zu wertvollen Einsichten und praktischen Leitlinien und validieren diese weiterhin über die Qwen3-Serie hinweg, von 0,6B bis 30B, was die Robustheit und Generalisierbarkeit demonstriert.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

Die Kunst des effizienten Denkens: Daten, Belohnung und Optimierung

The Art of Efficient Reasoning: Data, Reward, and Optimization

Zusammenfassung

Support