Насколько далеко может зайти обучение больших языковых моделей с использованием неконтролируемого RLVR?

Аннотация

Беспризорное обучение с подкреплением с верифицируемыми вознаграждениями (URLVR) предлагает путь для масштабирования обучения больших языковых моделей (LLM) за пределами ограничений обучения с учителем, позволяя получать вознаграждения без использования размеченных данных. Недавние работы используют внутренние сигналы модели, демонстрируя многообещающие первоначальные успехи, однако их потенциал и ограничения остаются неясными. В данной работе мы заново исследуем URLVR и представляем всесторонний анализ, охватывающий таксономию, теорию и обширные эксперименты. Мы сначала классифицируем методы URLVR на внутренние и внешние в зависимости от источников вознаграждения, затем устанавливаем единую теоретическую основу, которая показывает, что все внутренние методы в конечном счете сходятся к "заострению" начального распределения модели. Этот механизм заострения успешен, когда начальная уверенность модели соответствует правильности ответа, но катастрофически терпит неудачу при их несоответствии. В ходе систематических экспериментов мы демонстрируем, что внутренние вознаграждения последовательно следуют паттерну "взлета-и-падения" для всех методов, причем время коллапса определяется априорными знаниями модели, а не инженерными решениями. Несмотря на эти ограничения масштабирования, мы обнаруживаем, что внутренние вознаграждения сохраняют ценность при дообучении модели во время выполнения на небольших наборах данных, и предлагаем использовать шаг коллапса модели (Model Collapse Step) для измерения априорных знаний, который служит практическим индикатором пригодности модели для обучения с подкреплением. Наконец, мы исследуем методы внешнего вознаграждения, которые основывают верификацию на вычислительной асимметрии, показывая предварительные свидетельства того, что они могут преодолеть потолок "уверенность-правильность". Наши результаты очерчивают границы применимости внутренних методов URLVR, одновременно указывая пути к разработке масштабируемых альтернатив.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Насколько далеко может зайти обучение больших языковых моделей с использованием неконтролируемого RLVR?

How Far Can Unsupervised RLVR Scale LLM Training?

Аннотация

Support