ChatPaper.aiChatPaper

Stimuleert Reinforcement Learning Werkelijk het Redeneervermogen in LLMs Verder dan het Basismodel?

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

April 18, 2025
Auteurs: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
cs.AI

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft recentelijk opmerkelijke successen geboekt in het verbeteren van de redeneervaardigheden van LLMs, met name bij wiskundige en programmeertaken. Er wordt algemeen aangenomen dat RLVR LLMs in staat stelt om zichzelf continu te verbeteren, waardoor ze nieuwe redeneervaardigheden verwerven die de capaciteit van de corresponderende basismodellen overstijgen. In deze studie onderzoeken we deze aanname echter kritisch opnieuw door de pass@k-metric te meten met grote waarden van k om de grenzen van de redeneervaardigheden van de modellen te verkennen over een breed scala aan modelfamilies en benchmarks. Verrassend genoeg leidt RL niet tot fundamenteel nieuwe redeneerpatronen. Hoewel RL-getrainde modellen hun basismodellen overtreffen bij kleinere waarden van k (bijv. k=1), kunnen basismodellen een vergelijkbare of zelfs hogere pass@k-score behalen in vergelijking met hun RL-tegenhangers bij grote k-waarden. De redeneerpaden die door RL-getrainde modellen worden gegenereerd, zijn al opgenomen in de steekproefverdeling van de basismodellen, wat suggereert dat de meeste redeneervaardigheden die in RL-getrainde modellen worden getoond, al door basismodellen zijn verworven. Verdere analyse toont aan dat RL-training de prestaties verbetert door de uitvoeringsverdeling van het model te beïnvloeden in de richting van paden die eerder beloningen opleveren, waardoor correcte antwoorden efficiënter worden bemonsterd. Dit resulteert echter ook in een smallere grens van redeneervaardigheden in vergelijking met basismodellen. Soortgelijke resultaten worden waargenomen bij visuele redeneertaken die met RLVR zijn getraind. Bovendien ontdekken we dat distillatie daadwerkelijk nieuwe kennis in het model kan introduceren, in tegenstelling tot RLVR. Deze bevindingen benadrukken een kritische beperking van RLVR in het bevorderen van de redeneervaardigheden van LLMs, wat ons dwingt om fundamenteel na te denken over de impact van RL-training in redenerende LLMs en de behoefte aan een beter paradigma. Projectpagina: https://limit-of-RLVR.github.io
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning capabilities of LLMs, particularly in mathematics and programming tasks. It is widely believed that RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed corresponding base models' capacity. In this study, however, we critically re-examines this assumption by measuring the pass@k metric with large values of k to explore the reasoning capability boundary of the models across a wide range of model families and benchmarks. Surprisingly, the RL does not, in fact, elicit fundamentally new reasoning patterns. While RL-trained models outperform their base models at smaller values of k (\eg, k=1), base models can achieve a comparable or even higher pass@k score compared to their RL counterparts at large k values. The reasoning paths generated by RL-trained models are already included in the base models' sampling distribution, suggesting that most reasoning abilities manifested in RL-trained models are already obtained by base models. Further analysis shows that RL training boosts the performance by biasing the model's output distribution toward paths that are more likely to yield rewards, therefore sampling correct responses more efficiently. But this also results in a narrower reasoning capability boundary compared to base models. Similar results are observed in visual reasoning tasks trained with RLVR. Moreover, we find that distillation can genuinely introduce new knowledge into the model, different from RLVR. These findings underscore a critical limitation of RLVR in advancing LLM reasoning abilities which requires us to fundamentally rethink the impact of RL training in reasoning LLMs and the need of a better paradigm. Project Page: https://limit-of-RLVR.github.io

Summary

AI-Generated Summary

PDF11421April 21, 2025