Het verkennen van de grens van de uitkomstbeloning voor het leren van wiskundige redenering
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning
February 10, 2025
Auteurs: Chengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen
cs.AI
Samenvatting
Redeneervaardigheden, vooral die voor het oplossen van complexe wiskundige problemen, zijn cruciale componenten van algemene intelligentie. Recente vooruitgang door bedrijven, zoals de o-series modellen van OpenAI, heeft opmerkelijke vooruitgang geboekt op redeneertaken. Echter, de volledige technische details blijven ononthuld, en de technieken die naar alle waarschijnlijkheid worden toegepast zijn alleen reinforcement learning (RL) en de lange keten van gedachten. Dit artikel stelt een nieuw RL-framework voor, genaamd OREAL, om de prestatiegrens na te streven die kan worden bereikt via Outcome REwArd-gebaseerd reinforcement learning voor wiskundige redeneertaken, waar alleen binaire uitkomstbeloningen gemakkelijk toegankelijk zijn. We bewijzen theoretisch dat gedragskloon op positieve trajecten van best-of-N (BoN) bemonstering voldoende is om het KL-geregulariseerde optimale beleid te leren in binaire feedbackomgevingen. Deze formulering impliceert verder dat de beloningen van negatieve voorbeelden moeten worden hervormd om de gradiëntconsistentie tussen positieve en negatieve voorbeelden te waarborgen. Om de lang bestaande moeilijkheden veroorzaakt door schaarse beloningen in RL te verlichten, die zelfs verergerd worden door de gedeeltelijke juistheid van de lange keten van gedachten voor redeneertaken, passen we verder een beloningsmodel op tokenniveau toe om belangrijke tokens in redeneertrajecten voor leren te bemonsteren. Met OREAL kan een 7B-model voor het eerst een nauwkeurigheid van 94,0 pass@1 behalen op MATH-500 via RL, wat gelijk staat aan 32B-modellen. OREAL-32B overtreft ook eerdere 32B-modellen die zijn getraind door distillatie met een nauwkeurigheid van 95,0 pass@1 op MATH-500. Ons onderzoek geeft ook aan hoe belangrijk initiële beleidsmodellen en trainingsvragen zijn voor RL. Code, modellen en gegevens zullen worden vrijgegeven om toekomstig onderzoek te ondersteunen: https://github.com/InternLM/OREAL.
English
Reasoning abilities, especially those for solving complex math problems, are
crucial components of general intelligence. Recent advances by proprietary
companies, such as o-series models of OpenAI, have made remarkable progress on
reasoning tasks. However, the complete technical details remain unrevealed, and
the techniques that are believed certainly to be adopted are only reinforcement
learning (RL) and the long chain of thoughts. This paper proposes a new RL
framework, termed OREAL, to pursue the performance limit that can be achieved
through Outcome REwArd-based reinforcement
Learning for mathematical reasoning tasks, where only binary outcome
rewards are easily accessible. We theoretically prove that behavior cloning on
positive trajectories from best-of-N (BoN) sampling is sufficient to learn the
KL-regularized optimal policy in binary feedback environments. This formulation
further implies that the rewards of negative samples should be reshaped to
ensure the gradient consistency between positive and negative samples. To
alleviate the long-existing difficulties brought by sparse rewards in RL, which
are even exacerbated by the partial correctness of the long chain of thought
for reasoning tasks, we further apply a token-level reward model to sample
important tokens in reasoning trajectories for learning. With OREAL, for the
first time, a 7B model can obtain 94.0 pass@1 accuracy on MATH-500 through RL,
being on par with 32B models. OREAL-32B also surpasses previous 32B models
trained by distillation with 95.0 pass@1 accuracy on MATH-500. Our
investigation also indicates the importance of initial policy models and
training queries for RL. Code, models, and data will be released to benefit
future researchhttps://github.com/InternLM/OREAL.Summary
AI-Generated Summary