VinePPO: Het ontsluiten van RL-potentieel voor LLM-redenering door verfijnde krediettoewijzing
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
October 2, 2024
Auteurs: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker toegepast op complexe redeneertaken die het uitvoeren van meerdere complexe stappen vereisen voordat er enige beloning wordt ontvangen. Het correct toewijzen van krediet aan deze stappen is essentieel voor het verbeteren van de modelprestaties. Proximal Policy Optimization (PPO), een toonaangevend reinforcement learning (RL) algoritme dat wordt gebruikt voor het verfijnen van LLM's, maakt gebruik van waarde netwerken om de krediettoewijzing aan te pakken. Echter, waarde netwerken staan voor uitdagingen bij het nauwkeurig voorspellen van de verwachte cumulatieve beloningen bij complexe redeneertaken, wat vaak leidt tot updates met hoge variantie en suboptimale prestaties. In dit werk evalueren we systematisch de doeltreffendheid van waarde netwerken en onthullen we hun aanzienlijke tekortkomingen bij redeneer-intensieve LLM-taken, waarbij we aantonen dat ze nauwelijks beter presteren dan een willekeurige basislijn bij het vergelijken van alternatieve stappen. Om dit aan te pakken, stellen we VinePPO voor, een eenvoudige aanpak die gebruikmaakt van de flexibiliteit van taalomgevingen om onbevooroordeelde schattingen op basis van Monte Carlo te berekenen, waardoor de noodzaak voor grote waarde netwerken wordt omzeild. Onze methode presteert consequent beter dan PPO en andere RL-vrije basislijnen over de MATH en GSM8K datasets met minder gradiëntupdates (tot 9x), minder wandklok tijd (tot 3,0x). Deze resultaten benadrukken het belang van nauwkeurige krediettoewijzing bij RL-verfijning van LLM's en tonen het potentieel van VinePPO als een superieur alternatief.
English
Large language models (LLMs) are increasingly applied to complex reasoning
tasks that require executing several complex steps before receiving any reward.
Properly assigning credit to these steps is essential for enhancing model
performance. Proximal Policy Optimization (PPO), a state-of-the-art
reinforcement learning (RL) algorithm used for LLM finetuning, employs value
networks to tackle credit assignment. However, value networks face challenges
in predicting the expected cumulative rewards accurately in complex reasoning
tasks, often leading to high-variance updates and suboptimal performance. In
this work, we systematically evaluate the efficacy of value networks and reveal
their significant shortcomings in reasoning-heavy LLM tasks, showing that they
barely outperform a random baseline when comparing alternative steps. To
address this, we propose VinePPO, a straightforward approach that leverages the
flexibility of language environments to compute unbiased Monte Carlo-based
estimates, bypassing the need for large value networks. Our method consistently
outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with
fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These
results emphasize the importance of accurate credit assignment in RL finetuning
of LLM and demonstrate VinePPO's potential as a superior alternative.Summary
AI-Generated Summary