Más Corto pero no Peor: Razonamiento Frugal mediante Muestras Fáciles como Regularizadores de Longitud en RLVR Matemático
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
Autores: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
Resumen
Los modelos de lenguaje grande (LLM) entrenados para razonamiento paso a paso suelen volverse excesivamente verbosos, incrementando el costo de inferencia. Los flujos estándar de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) filtran los problemas "fáciles" para eficiencia del entrenamiento, haciendo que el modelo se entrene principalmente en problemas más difíciles que requieren cadenas de razonamiento más largas. Esto sesga la distribución de longitud de las salidas hacia arriba, resultando en un modelo que confunde "pensar más tiempo" con "pensar mejor". En este trabajo, demostramos que retener y ponderar moderadamente los problemas moderadamente fáciles actúa como un regularizador de longitud implícito. Exponer el modelo a tareas resolubles de cadenas cortas restringe su distribución de salida y previene la verbosidad descontrolada. El resultado es *brevedad emergente gratuita*: el modelo aprende a resolver problemas más difíciles sin inflar la longitud de la salida, a pesar de la ausencia de cualquier penalización explícita de longitud. Los experimentos RLVR que utilizan este enfoque en Qwen3-4B-Thinking-2507 (con un límite de 16k tokens) alcanzan la precisión pass@1 de referencia AIME25 mientras generan soluciones que son, en promedio, casi dos veces más cortas. El código está disponible en https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, con conjuntos de datos y modelos en https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.