Эволюция языковых моделей без меток: большинство определяет отбор, новизна способствует вариативности
Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation
September 18, 2025
Авторы: Yujun Zhou, Zhenwen Liang, Haolin Liu, Wenhao Yu, Kishan Panaganti, Linfeng Song, Dian Yu, Xiangliang Zhang, Haitao Mi, Dong Yu
cs.AI
Аннотация
Крупные языковые модели (LLM) всё чаще обучаются с использованием обучения с подкреплением на основе проверяемых вознаграждений (RLVR), однако реальное применение требует моделей, способных к самоулучшению без использования меток или внешних оценок. Существующие методы без меток, такие как минимизация уверенности, самосогласованность или цели, основанные на большинстве голосов, стабилизируют обучение, но постепенно сокращают исследование, что приводит к коллапсу энтропии: генерации становятся короче, менее разнообразными и хрупкими. В отличие от предыдущих подходов, таких как обучение с подкреплением на этапе тестирования (TTRL), которые в основном адаптируют модели к текущему немаркированному набору данных, наша цель шире: обеспечить общее улучшение без ущерба для внутренней способности модели к исследованию и обобщению, то есть к эволюции. Мы формализуем эту проблему и предлагаем EVolution-Oriented and Label-free Reinforcement Learning (EVOL-RL), простое правило, которое сочетает стабильность с вариативностью в условиях отсутствия меток. EVOL-RL использует ответ, выбранный большинством голосов, в качестве стабильной опоры (выбор), добавляя при этом вознаграждение, учитывающее новизну, которое поощряет ответы, чьи рассуждения отличаются от уже созданных (вариативность), измеряемые в семантическом пространстве. Реализованный с помощью GRPO, EVOL-RL также использует асимметричное ограничение для сохранения сильных сигналов и регуляризатор энтропии для поддержания поиска. Этот дизайн, основанный на выборе большинства и вариативности новизны, предотвращает коллапс, поддерживает более длинные и информативные цепочки рассуждений и улучшает как pass@1, так и pass@n. EVOL-RL стабильно превосходит базовый уровень TTRL, основанный только на большинстве; например, обучение на немаркированном AIME24 повышает pass@1 для Qwen3-4B-Base на AIME25 с 4.6% у TTRL до 16.4%, а pass@16 — с 18.5% до 37.9%. EVOL-RL не только предотвращает коллапс разнообразия, но и открывает более сильное обобщение в различных областях (например, GPQA). Кроме того, мы демонстрируем, что EVOL-RL также повышает производительность в условиях RLVR, подчеркивая его широкую применимость.
English
Large language models (LLMs) are increasingly trained with reinforcement
learning from verifiable rewards (RLVR), yet real-world deployment demands
models that can self-improve without labels or external judges. Existing
label-free methods, confidence minimization, self-consistency, or majority-vote
objectives, stabilize learning but steadily shrink exploration, causing an
entropy collapse: generations become shorter, less diverse, and brittle. Unlike
prior approaches such as Test-Time Reinforcement Learning (TTRL), which
primarily adapt models to the immediate unlabeled dataset at hand, our goal is
broader: to enable general improvements without sacrificing the model's
inherent exploration capacity and generalization ability, i.e., evolving. We
formalize this issue and propose EVolution-Oriented and Label-free
Reinforcement Learning (EVOL-RL), a simple rule that couples stability with
variation under a label-free setting. EVOL-RL keeps the majority-voted answer
as a stable anchor (selection) while adding a novelty-aware reward that favors
responses whose reasoning differs from what has already been produced
(variation), measured in semantic space. Implemented with GRPO, EVOL-RL also
uses asymmetric clipping to preserve strong signals and an entropy regularizer
to sustain search. This majority-for-selection + novelty-for-variation design
prevents collapse, maintains longer and more informative chains of thought, and
improves both pass@1 and pass@n. EVOL-RL consistently outperforms the
majority-only TTRL baseline; e.g., training on label-free AIME24 lifts
Qwen3-4B-Base AIME25 pass@1 from TTRL's 4.6% to 16.4%, and pass@16 from 18.5%
to 37.9%. EVOL-RL not only prevents diversity collapse but also unlocks
stronger generalization across domains (e.g., GPQA). Furthermore, we
demonstrate that EVOL-RL also boosts performance in the RLVR setting,
highlighting its broad applicability.