Обучение с подкреплением для логического вывода в больших языковых моделях с одним обучающим примеромReinforcement Learning for Reasoning in Large Language Models with One
Training Example
Мы демонстрируем, что обучение с подкреплением с верифицируемой наградой с использованием одного обучающего примера (1-shot RLVR) эффективно стимулирует математические способности крупных языковых моделей (LLM). Применяя RLVR к базовой модели Qwen2.5-Math-1.5B, мы выделяем один пример, который повышает производительность модели на тесте MATH500 с 36,0% до 73,6% и улучшает среднюю производительность на шести стандартных тестах математического рассуждения с 17,6% до 35,7%. Этот результат соответствует производительности, достигнутой с использованием подмножества DeepScaleR из 1,2 тыс. примеров (MATH500: 73,6%, среднее: 35,9%), которое включает упомянутый пример. Подобные значительные улучшения наблюдаются для различных моделей (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), алгоритмов обучения с подкреплением (GRPO и PPO) и различных математических примеров (многие из которых дают улучшение на MATH500 примерно на 30% или более при использовании в качестве единственного обучающего примера). Кроме того, мы выявляем некоторые интересные явления в ходе 1-shot RLVR, включая кросс-доменную генерализацию, увеличение частоты саморефлексии и устойчивое улучшение тестовой производительности даже после насыщения точности обучения — явление, которое мы называем пост-насыщенной генерализацией. Более того, мы подтверждаем, что эффективность 1-shot RLVR в основном обусловлена потерей градиента политики, что отличает её от феномена "grokking". Мы также показываем критическую роль стимулирования исследования (например, путём добавления энтропийной потери с подходящим коэффициентом) в обучении 1-shot RLVR. В качестве бонуса мы наблюдаем, что применение только энтропийной потери, без какой-либо награды за результат, значительно улучшает производительность Qwen2.5-Math-1.5B на MATH500 на 27,4%. Эти результаты могут вдохновить будущие исследования эффективности данных в RLVR и побудить к пересмотру как недавних достижений, так и базовых механизмов в RLVR. Наш код, модель и данные доступны в открытом доступе по адресу https://github.com/ypwang61/One-Shot-RLVR.