Короче, но не хуже: экономные рассуждения через простые примеры как регуляризаторы длины в математической RLVR
Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
November 2, 2025
Авторы: Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, Ahmad Chamma, Amr Mohamed, Dani Bouch, Michalis Vazirgiannis, Guokan Shang
cs.AI
Аннотация
Крупные языковые модели (LLM), обученные для пошаговых рассуждений, часто становятся излишне многословными, что увеличивает стоимость вывода. Стандартные конвейеры обучения с подкреплением с проверяемыми вознаграждениями (RLVR) отфильтровывают «простые» задачи для повышения эффективности обучения, в результате чего модель обучается в основном на сложных задачах, требующих длинных цепочек рассуждений. Это смещает распределение длины выходных данных в сторону увеличения, приводя к модели, которая отождествляет «более долгое размышление» с «лучшим размышлением». В данной работе мы показываем, что сохранение и умеренное увеличение веса умеренно простых задач действует как неявный регуляризатор длины. Предоставление модели доступа к решаемым задачам с короткими цепочками ограничивает распределение её выходных данных и предотвращает неконтролируемую многословность. Результатом является *возникновение краткости бесплатно*: модель учится решать более сложные задачи без увеличения длины выходных данных, несмотря на отсутствие какого-либо явного штрафа за длину. Эксперименты RLVR с использованием этого подхода на модели Qwen3-4B-Thinking-2507 (с лимитом в 16 тыс. токенов) достигают точности pass@1 AIME25 на уровне базового метода, при этом генерируя решения, которые в среднем почти в два раза короче. Код доступен по адресу https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, а наборы данных и модели — на https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
English
Large language models (LLMs) trained for step-by-step reasoning often become
excessively verbose, raising inference cost. Standard Reinforcement Learning
with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for
training efficiency, leaving the model to train primarily on harder problems
that require longer reasoning chains. This skews the output length distribution
upward, resulting in a model that conflates ``thinking longer'' with
``thinking better''. In this work, we show that retaining and modestly
up-weighting moderately easy problems acts as an implicit length regularizer.
Exposing the model to solvable short-chain tasks constrains its output
distribution and prevents runaway verbosity. The result is
\emph{emergent brevity for free}: the model learns to solve harder
problems without inflating the output length, despite the absence of
any explicit length penalization. RLVR experiments using this approach on
Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline
pass@1 AIME25 accuracy while generating solutions that are, on average, nearly
twice as short. The code is available at
https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and
models on
https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging
Face}.