짧지만 나쁘지 않다: 수학 RLVR에서 쉬운 샘플을 길이 규제자로 활용한 절약적 추론
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
저자: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
초록
단계별 추론을 위해 훈련된 대규모 언어 모델(LLM)은 과도하게 장황해져 추론 비용을 증가시키는 경우가 많습니다. 검증 가능한 보상을 활용한 표준 강화학습(RLVR) 파이프라인은 훈련 효율성을 위해 '쉬운' 문제들을 걸러내며, 모델이 주로 더 긴 추론 체인이 필요한 어려운 문제들로 훈련하도록 합니다. 이는 출력 길이 분포를 왜곡시켜 '더 오래 생각하는 것'과 '더 잘 생각하는 것'을 혼동하는 모델을 만들어냅니다. 본 연구에서는 중간 수준의 쉬운 문제들을 보유하고 적절히 가중치를 부여하는 것이 암시적 길이 정규화자 역할을 함을 보여줍니다. 해결 가능한 짧은 체인 과제를 모델에 노출시키면 출력 분포가 제한되고 과도한 장황함을 방지할 수 있습니다. 그 결과, 명시적인 길이 패널티 없이도 모델이 출력 길이를 불필요하게 늘리지 않으면서 더 어려운 문제를 해결하는 법을 배우는, 즉 **공짜로 얻어지는 간결함**이 나타납니다. 이 접근법을 사용하여 Qwen3-4B-Thinking-2507(16k 토큰 제한) 모델로 수행한 RLVR 실험에서 기준선(baseline) 대비 AIME25 pass@1 정확도를 유지하면서 평균적으로 거의 두 배 짧은 해결책을 생성했습니다. 코드는 https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}에서, 데이터셋과 모델은 https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}에서 이용할 수 있습니다.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.