Короче, но не хуже: экономные рассуждения через простые примеры как регуляризаторы длины в математической RLVR

Аннотация

Крупные языковые модели (LLM), обученные для пошаговых рассуждений, часто становятся излишне многословными, что увеличивает стоимость вывода. Стандартные конвейеры обучения с подкреплением с проверяемыми вознаграждениями (RLVR) отфильтровывают «простые» задачи для повышения эффективности обучения, в результате чего модель обучается в основном на сложных задачах, требующих длинных цепочек рассуждений. Это смещает распределение длины выходных данных в сторону увеличения, приводя к модели, которая отождествляет «более долгое размышление» с «лучшим размышлением». В данной работе мы показываем, что сохранение и умеренное увеличение веса умеренно простых задач действует как неявный регуляризатор длины. Предоставление модели доступа к решаемым задачам с короткими цепочками ограничивает распределение её выходных данных и предотвращает неконтролируемую многословность. Результатом является *возникновение краткости бесплатно*: модель учится решать более сложные задачи без увеличения длины выходных данных, несмотря на отсутствие какого-либо явного штрафа за длину. Эксперименты RLVR с использованием этого подхода на модели Qwen3-4B-Thinking-2507 (с лимитом в 16 тыс. токенов) достигают точности pass@1 AIME25 на уровне базового метода, при этом генерируя решения, которые в среднем почти в два раза короче. Код доступен по адресу https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, а наборы данных и модели — на https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

English

Large language models (LLMs) trained for step-by-step reasoning often become excessively verbose, raising inference cost. Standard Reinforcement Learning with Verifiable Rewards (RLVR) pipelines filter out ``easy'' problems for training efficiency, leaving the model to train primarily on harder problems that require longer reasoning chains. This skews the output length distribution upward, resulting in a model that conflates ``thinking longer'' with ``thinking better''. In this work, we show that retaining and modestly up-weighting moderately easy problems acts as an implicit length regularizer. Exposing the model to solvable short-chain tasks constrains its output distribution and prevents runaway verbosity. The result is \emph{emergent brevity for free}: the model learns to solve harder problems without inflating the output length, despite the absence of any explicit length penalization. RLVR experiments using this approach on Qwen3-4B-Thinking-2507 (with a 16k token limit) achieve baseline pass@1 AIME25 accuracy while generating solutions that are, on average, nearly twice as short. The code is available at https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, with datasets and models on https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

Короче, но не хуже: экономные рассуждения через простые примеры как регуляризаторы длины в математической RLVR

Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

Аннотация

Support