ChatPaper.aiChatPaper

Kürzer, aber nicht schlechter: Sparsame Inferenz durch einfache Beispiele als Längenregulierer im mathematischen RLVR

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

November 2, 2025
papers.authors: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs), die auf schrittweises Denken trainiert sind, neigen oft zu übermäßiger Ausführlichkeit, was die Inferenzkosten erhöht. Standard-Pipelines für Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) filtern „einfache“ Probleme aus Effizienzgründen heraus, sodass das Modell hauptsächlich an schwierigeren Problemen mit längeren Denkketten trainiert. Dies verzerrt die Verteilung der Ausgabelängen nach oben und führt zu einem Modell, das „länger nachdenken“ mit „besser nachdenken“ verwechselt. In dieser Arbeit zeigen wir, dass das Beibehalten und moderate Übergewichten mäßig einfacher Probleme als impliziter Längenregulator wirkt. Indem das Modell lösbaren Aufgaben mit kurzen Denkketten ausgesetzt wird, wird seine Ausgabeverteilung eingeschränkt und unkontrollierte Weitschweifigkeit verhindert. Das Ergebnis ist *emergent Kürze ohne zusätzlichen Aufwand*: Das Modell lernt, schwierigere Probleme zu lösen, ohne die Ausgabelänge aufzublähen, obwohl keinerlei explizite Längenbestrafung erfolgt. RLVR-Experimente mit diesem Ansatz auf Qwen3-4B-Thinking-2507 (mit einem 16k-Token-Limit) erreichen die Baseline-Accuracy von pass@1 AIME25, während die generierten Lösungen im Durchschnitt fast doppelt so kurz sind. Der Code ist verfügbar unter https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, Datensätze und Modelle finden sich auf https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become excessively verbose, raising inference cost. Standard Reinforcement Learning with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for training efficiency, leaving the model to train primarily on harder problems that require longer reasoning chains. This skews the output length distribution upward, resulting in a model that conflates ``thinking longer'' with ``thinking better''. In this work, we show that retaining and modestly up-weighting moderately easy problems acts as an implicit length regularizer. Exposing the model to solvable short-chain tasks constrains its output distribution and prevents runaway verbosity. The result is \emph{emergent brevity for free}: the model learns to solve harder problems without inflating the output length, despite the absence of any explicit length penalization. RLVR experiments using this approach on Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline pass@1 AIME25 accuracy while generating solutions that are, on average, nearly twice as short. The code is available at https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and models on https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
PDF121December 2, 2025