ChatPaper.aiChatPaper

ProRL: Пролонгированное обучение с подкреплением расширяет границы рассуждений в крупных языковых моделях

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

May 30, 2025
Авторы: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI

Аннотация

Недавние достижения в языковых моделях, ориентированных на рассуждения, подчеркнули важность обучения с подкреплением (RL) как перспективного метода для согласования моделей с проверяемыми вознаграждениями. Однако остается спорным вопрос, действительно ли RL расширяет способности модели к рассуждениям или просто усиливает высокооцененные выходные данные, уже скрытые в распределении базовой модели, а также приводит ли постоянное увеличение вычислительных ресурсов для RL к надежному улучшению производительности в рассуждениях. В данной работе мы бросаем вызов устоявшимся предположениям, демонстрируя, что длительное обучение с подкреплением (ProRL) может раскрыть новые стратегии рассуждений, недоступные для базовых моделей, даже при интенсивной выборке. Мы представляем ProRL — новую методику обучения, которая включает контроль расхождения Кульбака-Лейблера (KL), сброс эталонной политики и разнообразный набор задач. Наш эмпирический анализ показывает, что модели, обученные с использованием RL, стабильно превосходят базовые модели в широком спектре оценок pass@k, включая сценарии, где базовые модели полностью терпят неудачу независимо от количества попыток. Мы также демонстрируем, что улучшение границ рассуждений сильно коррелирует с компетентностью базовой модели в задачах и продолжительностью обучения, что указывает на способность RL исследовать и заполнять новые области пространства решений с течением времени. Эти результаты предлагают новые инсайты о условиях, при которых RL значимо расширяет границы рассуждений в языковых моделях, и закладывают основу для будущих исследований долгосрочного RL для рассуждений. Мы публикуем веса модели для поддержки дальнейших исследований: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.
English
Recent advances in reasoning-centric language models have highlighted reinforcement learning (RL) as a promising method for aligning models with verifiable rewards. However, it remains contentious whether RL truly expands a model's reasoning capabilities or merely amplifies high-reward outputs already latent in the base model's distribution, and whether continually scaling up RL compute reliably leads to improved reasoning performance. In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning. We release model weights to support further research: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
PDF1133June 2, 2025