De Kunst van Efficiënt Redeneren: Gegevens, Beloning en Optimalisatie

Samenvatting

Grote Taalmodellen (LLM's) hebben consistent baat bij geschaalde Chain-of-Thought (CoT) redeneerprocessen, maar lijden ook onder een zware computationele last. Om dit probleem aan te pakken, streeft efficiënt redeneren naar het stimuleren van korte maar accurate denkprocessen, meestal via *reward shaping* met Reinforcement Learning (RL). In dit artikel onderzoeken we systematisch de mechanismen van efficiënt redeneren voor LLM's. Voor een uitgebreide evaluatie pleiten we voor meer gedetailleerde metrieken, waaronder de lengteverdeling afhankelijk van de correctheid en de prestaties over een breed spectrum van tokenbudgets, variërend van 2k tot 32k. Ten eerste onthullen we dat het trainingsproces een tweefasenparadigma volgt: lengte-aanpassing en redeneerverfijning. Daarna voeren we uitgebreide experimenten uit (ongeveer 0.2 miljoen GPU-uren) in een uniform protocol, waarbij we trainingsprompts en rollouts, *reward shaping* en optimalisatiestrategieën deconstrueren. Een cruciale bevinding is in het bijzonder het trainen op relatief eenvoudigere prompts, om de dichtheid van positieve *reward*-signalen te waarborgen en zodoende lengte-implosie te voorkomen. Tegelijkertijd kan de aangeleerde lengtevooringenomenheid worden gegeneraliseerd over domeinen heen. We distilleren alle bevindingen tot waardevolle inzichten en praktische richtlijnen, en valideren deze verder over de Qwen3-serie, variërend van 0.6B tot 30B, wat de robuustheid en generalisatie aantoont.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

De Kunst van Efficiënt Redeneren: Gegevens, Beloning en Optimalisatie

The Art of Efficient Reasoning: Data, Reward, and Optimization

Samenvatting

Support