Versterkend Leren voor Redeneren in Grote Taalmodellen met Eén TrainingsvoorbeeldReinforcement Learning for Reasoning in Large Language Models with One
Training Example
We tonen aan dat reinforcement learning met verifieerbare beloning met één trainingsvoorbeeld (1-shot RLVR) effectief is in het stimuleren van de wiskundige redeneervaardigheden van grote taalmodellen (LLMs). Door RLVR toe te passen op het basismodel Qwen2.5-Math-1.5B, identificeren we een enkel voorbeeld dat de modelprestatie op MATH500 verhoogt van 36,0% naar 73,6%, en de gemiddelde prestatie over zes veelgebruikte wiskundige redeneerbenchmarks verbetert van 17,6% naar 35,7%. Dit resultaat komt overeen met de prestatie die wordt behaald met de 1,2k DeepScaleR subset (MATH500: 73,6%, gemiddeld: 35,9%), die het bovengenoemde voorbeeld omvat. Soortgelijke substantiële verbeteringen worden waargenomen over verschillende modellen (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL-algoritmen (GRPO en PPO), en verschillende wiskundige voorbeelden (waarvan vele een verbetering van ongeveer 30% of meer op MATH500 opleveren wanneer ze als enkel trainingsvoorbeeld worden gebruikt). Daarnaast identificeren we enkele interessante fenomenen tijdens 1-shot RLVR, waaronder cross-domein generalisatie, een verhoogde frequentie van zelfreflectie, en een aanhoudende verbetering van de testprestatie zelfs nadat de trainingsnauwkeurigheid verzadigd is, een fenomeen dat we post-saturatie generalisatie noemen. Bovendien verifiëren we dat de effectiviteit van 1-shot RLVR voornamelijk voortkomt uit het policy gradient verlies, wat het onderscheidt van het "grokking" fenomeen. We tonen ook de cruciale rol aan van het bevorderen van exploratie (bijvoorbeeld door het toevoegen van entropieverlies met een geschikte coëfficiënt) in 1-shot RLVR training. Als bonus observeren we dat het toepassen van entropieverlies alleen, zonder enige uitkomstbeloning, de prestatie van Qwen2.5-Math-1.5B op MATH500 aanzienlijk verbetert met 27,4%. Deze bevindingen kunnen toekomstig werk over RLVR data-efficiëntie inspireren en een heronderzoek stimuleren van zowel recente vooruitgang als de onderliggende mechanismen in RLVR. Onze code, model en data zijn open source op https://github.com/ypwang61/One-Shot-RLVR.