Korter maar niet Slechter: Zuinig Redeneren via Makkelijke Voorbeelden als Lengteregularisatoren in Wiskundige RLVR
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
Auteurs: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) die worden getraind voor stapsgewijs redeneren, worden vaak excessief breedsprakig, wat de inferentiekosten verhoogt. Standaard Reinforcement Learning with Verifiable Rewards (RLVR)-pijplijnen filteren "eenvoudige" problemen eruit voor trainingsdoeleinden, waardoor het model voornamelijk traint op moeilijkere problemen die langere redeneerketens vereisen. Dit verschuift de verdeling van de uitvoerlengte naar boven, wat resulteert in een model dat "langer nadenken" verwart met "beter nadenken". In dit werk tonen we aan dat het behouden en matig zwaarder wegen van redelijk eenvoudige problemen fungeert als een impliciete lengteregularisator. Door het model bloot te stellen aan oplosbare taken met korte ketens, wordt de uitvoerverdeling begrensd en wordt ongeremde breedsprakigheid voorkomen. Het resultaat is *emergent beknoptheid zonder kosten*: het model leert moeilijkere problemen op te lossen zonder de uitvoerlengte op te blazen, ondanks de afwezigheid van expliciete lengtestrafing. RLVR-experimenten met deze aanpak op Qwen3-4B-Thinking-2507 (met een limiet van 16k tokens) behalen de baseline pass@1 AIME25-nauwkeurigheid terwijl ze oplossingen genereren die gemiddeld bijna twee keer zo kort zijn. De code is beschikbaar op https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, met datasets en modellen op https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.