Стимулирует ли обучение с подкреплением действительно развитие способности к рассуждению в больших языковых моделях за пределами базовой модели?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно продемонстрировало значительный успех в улучшении способностей крупных языковых моделей (LLM) к рассуждению, особенно в задачах математики и программирования. Широко распространено мнение, что RLVR позволяет LLM непрерывно самосовершенствоваться, приобретая новые способности к рассуждению, которые превосходят возможности базовых моделей. Однако в данном исследовании мы критически пересматриваем это предположение, измеряя метрику pass@k при больших значениях k, чтобы изучить границы способностей моделей к рассуждению в широком спектре семейств моделей и бенчмарков. Удивительно, но RL на самом деле не вызывает принципиально новых паттернов рассуждения. Хотя модели, обученные с RL, превосходят свои базовые версии при меньших значениях k (например, k=1), базовые модели могут достичь сопоставимого или даже более высокого показателя pass@k по сравнению с их RL-аналогами при больших значениях k. Пути рассуждения, генерируемые моделями, обученными с RL, уже включены в распределение выборки базовых моделей, что свидетельствует о том, что большинство способностей к рассуждению, проявляемых в RL-обученных моделях, уже доступны базовым моделям. Дополнительный анализ показывает, что обучение с RL повышает производительность, смещая распределение выходных данных модели в сторону путей, которые с большей вероятностью принесут награду, тем самым более эффективно выбирая правильные ответы. Однако это также приводит к более узкой границе способностей к рассуждению по сравнению с базовыми моделями. Подобные результаты наблюдаются и в задачах визуального рассуждения, обученных с RLVR. Более того, мы обнаруживаем, что дистилляция может действительно вносить новые знания в модель, в отличие от RLVR. Эти результаты подчеркивают критическое ограничение RLVR в продвижении способностей LLM к рассуждению, что заставляет нас фундаментально переосмыслить влияние RL-обучения на модели рассуждения и необходимость поиска лучшей парадигмы. Страница проекта: https://limit-of-RLVR.github.io