ProRL: Пролонгированное обучение с подкреплением расширяет границы рассуждений в крупных языковых моделяхProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in
Large Language Models
Недавние достижения в языковых моделях, ориентированных на рассуждения, подчеркнули важность обучения с подкреплением (RL) как перспективного метода для согласования моделей с проверяемыми вознаграждениями. Однако остается спорным вопрос, действительно ли RL расширяет способности модели к рассуждениям или просто усиливает высокооцененные выходные данные, уже скрытые в распределении базовой модели, а также приводит ли постоянное увеличение вычислительных ресурсов для RL к надежному улучшению производительности в рассуждениях. В данной работе мы бросаем вызов устоявшимся предположениям, демонстрируя, что длительное обучение с подкреплением (ProRL) может раскрыть новые стратегии рассуждений, недоступные для базовых моделей, даже при интенсивной выборке. Мы представляем ProRL — новую методику обучения, которая включает контроль расхождения Кульбака-Лейблера (KL), сброс эталонной политики и разнообразный набор задач. Наш эмпирический анализ показывает, что модели, обученные с использованием RL, стабильно превосходят базовые модели в широком спектре оценок pass@k, включая сценарии, где базовые модели полностью терпят неудачу независимо от количества попыток. Мы также демонстрируем, что улучшение границ рассуждений сильно коррелирует с компетентностью базовой модели в задачах и продолжительностью обучения, что указывает на способность RL исследовать и заполнять новые области пространства решений с течением времени. Эти результаты предлагают новые инсайты о условиях, при которых RL значимо расширяет границы рассуждений в языковых моделях, и закладывают основу для будущих исследований долгосрочного RL для рассуждений. Мы публикуем веса модели для поддержки дальнейших исследований: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.