Versterkend Leren voor Redeneren in Grote Taalmodellen met Eén Trainingsvoorbeeld
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
April 29, 2025
Auteurs: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI
Samenvatting
We tonen aan dat reinforcement learning met verifieerbare beloning met één trainingsvoorbeeld (1-shot RLVR) effectief is in het stimuleren van de wiskundige redeneervaardigheden van grote taalmodellen (LLMs). Door RLVR toe te passen op het basismodel Qwen2.5-Math-1.5B, identificeren we een enkel voorbeeld dat de modelprestatie op MATH500 verhoogt van 36,0% naar 73,6%, en de gemiddelde prestatie over zes veelgebruikte wiskundige redeneerbenchmarks verbetert van 17,6% naar 35,7%. Dit resultaat komt overeen met de prestatie die wordt behaald met de 1,2k DeepScaleR subset (MATH500: 73,6%, gemiddeld: 35,9%), die het bovengenoemde voorbeeld omvat. Soortgelijke substantiële verbeteringen worden waargenomen over verschillende modellen (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-algoritmen (GRPO en PPO), en verschillende wiskundige voorbeelden (waarvan vele een verbetering van ongeveer 30% of meer op MATH500 opleveren wanneer ze als enkel trainingsvoorbeeld worden gebruikt). Daarnaast identificeren we enkele interessante fenomenen tijdens 1-shot RLVR, waaronder cross-domein generalisatie, een verhoogde frequentie van zelfreflectie, en een aanhoudende verbetering van de testprestatie zelfs nadat de trainingsnauwkeurigheid verzadigd is, een fenomeen dat we post-saturatie generalisatie noemen. Bovendien verifiëren we dat de effectiviteit van 1-shot RLVR voornamelijk voortkomt uit het policy gradient verlies, wat het onderscheidt van het "grokking" fenomeen. We tonen ook de cruciale rol aan van het bevorderen van exploratie (bijvoorbeeld door het toevoegen van entropieverlies met een geschikte coëfficiënt) in 1-shot RLVR training. Als bonus observeren we dat het toepassen van entropieverlies alleen, zonder enige uitkomstbeloning, de prestatie van Qwen2.5-Math-1.5B op MATH500 aanzienlijk verbetert met 27,4%. Deze bevindingen kunnen toekomstig werk over RLVR data-efficiëntie inspireren en een heronderzoek stimuleren van zowel recente vooruitgang als de onderliggende mechanismen in RLVR. Onze code, model en data zijn open source op https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training
example (1-shot RLVR) is effective in incentivizing the math reasoning
capabilities of large language models (LLMs). Applying RLVR to the base model
Qwen2.5-Math-1.5B, we identify a single example that elevates model performance
on MATH500 from 36.0% to 73.6%, and improves the average performance across six
common mathematical reasoning benchmarks from 17.6% to 35.7%. This result
matches the performance obtained using the 1.2k DeepScaleR subset (MATH500:
73.6%, average: 35.9%), which includes the aforementioned example. Similar
substantial improvements are observed across various models (Qwen2.5-Math-7B,
Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and
PPO), and different math examples (many of which yield approximately 30% or
greater improvement on MATH500 when employed as a single training example). In
addition, we identify some interesting phenomena during 1-shot RLVR, including
cross-domain generalization, increased frequency of self-reflection, and
sustained test performance improvement even after the training accuracy has
saturated, a phenomenon we term post-saturation generalization. Moreover, we
verify that the effectiveness of 1-shot RLVR primarily arises from the policy
gradient loss, distinguishing it from the "grokking" phenomenon. We also show
the critical role of promoting exploration (e.g., by adding entropy loss with
an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe
that applying entropy loss alone, without any outcome reward, significantly
enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings
can inspire future work on RLVR data efficiency and encourage a re-examination
of both recent progress and the underlying mechanisms in RLVR. Our code, model,
and data are open source at https://github.com/ypwang61/One-Shot-RLVRSummary
AI-Generated Summary