Stimuleert Reinforcement Learning Werkelijk het Redeneervermogen in
LLMs Verder dan het Basismodel?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft recentelijk opmerkelijke successen geboekt in het verbeteren van de redeneervaardigheden van LLMs, met name bij wiskundige en programmeertaken. Er wordt algemeen aangenomen dat RLVR LLMs in staat stelt om zichzelf continu te verbeteren, waardoor ze nieuwe redeneervaardigheden verwerven die de capaciteit van de corresponderende basismodellen overstijgen. In deze studie onderzoeken we deze aanname echter kritisch opnieuw door de pass@k-metric te meten met grote waarden van k om de grenzen van de redeneervaardigheden van de modellen te verkennen over een breed scala aan modelfamilies en benchmarks. Verrassend genoeg leidt RL niet tot fundamenteel nieuwe redeneerpatronen. Hoewel RL-getrainde modellen hun basismodellen overtreffen bij kleinere waarden van k (bijv. k=1), kunnen basismodellen een vergelijkbare of zelfs hogere pass@k-score behalen in vergelijking met hun RL-tegenhangers bij grote k-waarden. De redeneerpaden die door RL-getrainde modellen worden gegenereerd, zijn al opgenomen in de steekproefverdeling van de basismodellen, wat suggereert dat de meeste redeneervaardigheden die in RL-getrainde modellen worden getoond, al door basismodellen zijn verworven. Verdere analyse toont aan dat RL-training de prestaties verbetert door de uitvoeringsverdeling van het model te beïnvloeden in de richting van paden die eerder beloningen opleveren, waardoor correcte antwoorden efficiënter worden bemonsterd. Dit resulteert echter ook in een smallere grens van redeneervaardigheden in vergelijking met basismodellen. Soortgelijke resultaten worden waargenomen bij visuele redeneertaken die met RLVR zijn getraind. Bovendien ontdekken we dat distillatie daadwerkelijk nieuwe kennis in het model kan introduceren, in tegenstelling tot RLVR. Deze bevindingen benadrukken een kritische beperking van RLVR in het bevorderen van de redeneervaardigheden van LLMs, wat ons dwingt om fundamenteel na te denken over de impact van RL-training in redenerende LLMs en de behoefte aan een beter paradigma. Projectpagina: https://limit-of-RLVR.github.io