Più Breve ma Non Peggiore: Ragionamento Frugale Attraverso Campioni Facili come Regolarizzatori di Lunghezza in RLVR Matematico
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
Autori: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
Abstract
I grandi modelli linguistici (LLM) addestrati per il ragionamento passo-passo tendono spesso a diventare eccessivamente verbosi, aumentando i costi di inferenza. Le pipeline standard di Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) filtrano i problemi "facili" per l'efficienza dell'addestramento, lasciando che il modello si addestri principalmente su problemi più difficili che richiedono catene di ragionamento più lunghe. Ciò distorce la distribuzione della lunghezza dell'output verso l'alto, determinando un modello che confonde il "pensare più a lungo" con il "pensare meglio". In questo lavoro, dimostriamo che trattenere e aumentare moderatamente il peso dei problemi moderatamente facili funge da regolarizzatore implicito della lunghezza. Esporre il modello a compiti risolvibili con catene corte vincola la sua distribuzione di output e previene una verbosità incontrollata. Il risultato è una **brevità emergente a costo zero**: il modello impara a risolvere problemi più difficili senza gonfiare la lunghezza dell'output, nonostante l'assenza di qualsiasi penalizzazione esplicita della lunghezza. Esperimenti RLVR che utilizzano questo approccio su Qwen3-4B-Thinking-2507 (con un limite di 16k token) raggiungono l'accuratezza pass@1 baseline AIME25 generando soluzioni che sono, in media, quasi due volte più brevi. Il codice è disponibile su https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, con dataset e modelli su https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.