Обучение с подкреплением для логического вывода в больших языковых моделях с одним обучающим примером
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
April 29, 2025
Авторы: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI
Аннотация
Мы демонстрируем, что обучение с подкреплением с верифицируемой наградой с использованием одного обучающего примера (1-shot RLVR) эффективно стимулирует математические способности крупных языковых моделей (LLM). Применяя RLVR к базовой модели Qwen2.5-Math-1.5B, мы выделяем один пример, который повышает производительность модели на тесте MATH500 с 36,0% до 73,6% и улучшает среднюю производительность на шести стандартных тестах математического рассуждения с 17,6% до 35,7%. Этот результат соответствует производительности, достигнутой с использованием подмножества DeepScaleR из 1,2 тыс. примеров (MATH500: 73,6%, среднее: 35,9%), которое включает упомянутый пример. Подобные значительные улучшения наблюдаются для различных моделей (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), алгоритмов обучения с подкреплением (GRPO и PPO) и различных математических примеров (многие из которых дают улучшение на MATH500 примерно на 30% или более при использовании в качестве единственного обучающего примера). Кроме того, мы выявляем некоторые интересные явления в ходе 1-shot RLVR, включая кросс-доменную генерализацию, увеличение частоты саморефлексии и устойчивое улучшение тестовой производительности даже после насыщения точности обучения — явление, которое мы называем пост-насыщенной генерализацией. Более того, мы подтверждаем, что эффективность 1-shot RLVR в основном обусловлена потерей градиента политики, что отличает её от феномена "grokking". Мы также показываем критическую роль стимулирования исследования (например, путём добавления энтропийной потери с подходящим коэффициентом) в обучении 1-shot RLVR. В качестве бонуса мы наблюдаем, что применение только энтропийной потери, без какой-либо награды за результат, значительно улучшает производительность Qwen2.5-Math-1.5B на MATH500 на 27,4%. Эти результаты могут вдохновить будущие исследования эффективности данных в RLVR и побудить к пересмотру как недавних достижений, так и базовых механизмов в RLVR. Наш код, модель и данные доступны в открытом доступе по адресу https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training
example (1-shot RLVR) is effective in incentivizing the math reasoning
capabilities of large language models (LLMs). Applying RLVR to the base model
Qwen2.5-Math-1.5B, we identify a single example that elevates model performance
on MATH500 from 36.0% to 73.6%, and improves the average performance across six
common mathematical reasoning benchmarks from 17.6% to 35.7%. This result
matches the performance obtained using the 1.2k DeepScaleR subset (MATH500:
73.6%, average: 35.9%), which includes the aforementioned example. Similar
substantial improvements are observed across various models (Qwen2.5-Math-7B,
Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and
PPO), and different math examples (many of which yield approximately 30% or
greater improvement on MATH500 when employed as a single training example). In
addition, we identify some interesting phenomena during 1-shot RLVR, including
cross-domain generalization, increased frequency of self-reflection, and
sustained test performance improvement even after the training accuracy has
saturated, a phenomenon we term post-saturation generalization. Moreover, we
verify that the effectiveness of 1-shot RLVR primarily arises from the policy
gradient loss, distinguishing it from the "grokking" phenomenon. We also show
the critical role of promoting exploration (e.g., by adding entropy loss with
an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe
that applying entropy loss alone, without any outcome reward, significantly
enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings
can inspire future work on RLVR data efficiency and encourage a re-examination
of both recent progress and the underlying mechanisms in RLVR. Our code, model,
and data are open source at https://github.com/ypwang61/One-Shot-RLVRSummary
AI-Generated Summary