Mais Curto, mas Não Pior: Raciocínio Económico via Amostras Fáceis como Regularizadores de Comprimento no RLVR Matemático

Resumo

Modelos de linguagem grandes (LLMs) treinados para raciocínio passo a passo frequentemente tornam-se excessivamente verbosos, aumentando o custo de inferência. Os fluxos padrão de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) filtram problemas "fáceis" para eficiência de treinamento, deixando o modelo treinar principalmente em problemas mais difíceis que exigem cadeias de raciocínio mais longas. Isso distorce a distribuição do comprimento da saída para cima, resultando em um modelo que confunde "pensar por mais tempo" com "pensar melhor". Neste trabalho, mostramos que reter e ponderar moderadamente problemas moderadamente fáceis atua como um regularizador implícito de comprimento. Expor o modelo a tarefas solucionáveis de cadeia curta restringe sua distribuição de saída e evita a verbosidade descontrolada. O resultado é uma **brevidade emergente gratuita**: o modelo aprende a resolver problemas mais difíceis sem inflacionar o comprimento da saída, apesar da ausência de qualquer penalização explícita de comprimento. Experimentos RLVR usando esta abordagem no Qwen3-4B-Thinking-2507 (com limite de 16k tokens) alcançam a precisão pass@1 de linha de base AIME25 enquanto geram soluções que são, em média, quase duas vezes mais curtas. O código está disponível em https://github.com/MBZUAI-Paris/Frugal-AI, com conjuntos de dados e modelos em https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc.

English

Large language models (LLMs) trained for step-by-step reasoning often become excessively verbose, raising inference cost. Standard Reinforcement Learning with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for training efficiency, leaving the model to train primarily on harder problems that require longer reasoning chains. This skews the output length distribution upward, resulting in a model that conflates ``thinking longer'' with ``thinking better''. In this work, we show that retaining and modestly up-weighting moderately easy problems acts as an implicit length regularizer. Exposing the model to solvable short-chain tasks constrains its output distribution and prevents runaway verbosity. The result is \emph{emergent brevity for free}: the model learns to solve harder problems without inflating the output length, despite the absence of any explicit length penalization. RLVR experiments using this approach on Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline pass@1 AIME25 accuracy while generating solutions that are, on average, nearly twice as short. The code is available at https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and models on https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

Mais Curto, mas Não Pior: Raciocínio Económico via Amostras Fáceis como Regularizadores de Comprimento no RLVR Matemático

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

Resumo

Support