Plus court mais pas moins bon : Raisonnement frugal via des échantillons faciles comme régularisateurs de longueur dans le RLVR mathématique
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
papers.authors: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) entraînés pour un raisonnement étape par étape deviennent souvent excessivement verbeux, ce qui augmente le coût de l'inférence. Les pipelines standards de Reinforcement Learning avec Récompenses Vérifiables (RLVR) filtrent les problèmes « faciles » pour l'efficacité de l'entraînement, laissant le modèle s'entraîner principalement sur des problèmes plus difficiles nécessitant des chaînes de raisonnement plus longues. Cela biaise la distribution de la longueur des sorties vers le haut, conduisant à un modèle qui confond « réfléchir plus longtemps » avec « mieux réfléchir ». Dans ce travail, nous montrons que conserver et pondérer modérément les problèmes modérément faciles agit comme un régularisateur implicite de la longueur. Exposer le modèle à des tâches solubles à chaîne courte contraint sa distribution de sortie et empêche une verbosité excessive. Le résultat est une *brièveté émergente gratuite* : le modèle apprend à résoudre des problèmes plus difficiles sans gonfler la longueur de sortie, et ce en l'absence de toute pénalisation explicite de la longueur. Les expériences RLVR utilisant cette approche sur Qwen3-4B-Thinking-2507 (avec une limite de 16k tokens) atteignent la précision pass@1 de référence sur AIME25 tout en générant des solutions qui sont, en moyenne, près de deux fois plus courtes. Le code est disponible à l'adresse https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, avec les jeux de données et modèles sur https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.