ChatPaper.aiChatPaper

Versterkend Leren voor Redeneren in Grote Taalmodellen met Eén Trainingsvoorbeeld

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

April 29, 2025
Auteurs: Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Lucas Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen
cs.AI

Samenvatting

We tonen aan dat reinforcement learning met verifieerbare beloning met één trainingsvoorbeeld (1-shot RLVR) effectief is in het stimuleren van de wiskundige redeneervaardigheden van grote taalmodellen (LLMs). Door RLVR toe te passen op het basismodel Qwen2.5-Math-1.5B, identificeren we een enkel voorbeeld dat de modelprestatie op MATH500 verhoogt van 36,0% naar 73,6%, en de gemiddelde prestatie over zes veelgebruikte wiskundige redeneerbenchmarks verbetert van 17,6% naar 35,7%. Dit resultaat komt overeen met de prestatie die wordt behaald met de 1,2k DeepScaleR subset (MATH500: 73,6%, gemiddeld: 35,9%), die het bovengenoemde voorbeeld omvat. Soortgelijke substantiële verbeteringen worden waargenomen over verschillende modellen (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-algoritmen (GRPO en PPO), en verschillende wiskundige voorbeelden (waarvan vele een verbetering van ongeveer 30% of meer op MATH500 opleveren wanneer ze als enkel trainingsvoorbeeld worden gebruikt). Daarnaast identificeren we enkele interessante fenomenen tijdens 1-shot RLVR, waaronder cross-domein generalisatie, een verhoogde frequentie van zelfreflectie, en een aanhoudende verbetering van de testprestatie zelfs nadat de trainingsnauwkeurigheid verzadigd is, een fenomeen dat we post-saturatie generalisatie noemen. Bovendien verifiëren we dat de effectiviteit van 1-shot RLVR voornamelijk voortkomt uit het policy gradient verlies, wat het onderscheidt van het "grokking" fenomeen. We tonen ook de cruciale rol aan van het bevorderen van exploratie (bijvoorbeeld door het toevoegen van entropieverlies met een geschikte coëfficiënt) in 1-shot RLVR training. Als bonus observeren we dat het toepassen van entropieverlies alleen, zonder enige uitkomstbeloning, de prestatie van Qwen2.5-Math-1.5B op MATH500 aanzienlijk verbetert met 27,4%. Deze bevindingen kunnen toekomstig werk over RLVR data-efficiëntie inspireren en een heronderzoek stimuleren van zowel recente vooruitgang als de onderliggende mechanismen in RLVR. Onze code, model en data zijn open source op https://github.com/ypwang61/One-Shot-RLVR.
English
We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the "grokking" phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B's performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

Summary

AI-Generated Summary

PDF363April 30, 2025