ChatPaper.aiChatPaper

VinePPO: Sbloccare il Potenziale di RL per il Ragionamento LLM Attraverso un Assegnamento di Credito Affinato

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

October 2, 2024
Autori: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI

Abstract

I grandi modelli linguistici (LLM) vengono sempre più utilizzati per complesse attività di ragionamento che richiedono l'esecuzione di diversi passaggi complessi prima di ricevere alcuna ricompensa. Assegnare correttamente il merito a questi passaggi è essenziale per migliorare le prestazioni del modello. Proximal Policy Optimization (PPO), un algoritmo di apprendimento per rinforzo (RL) all'avanguardia utilizzato per il raffinamento dei LLM, impiega reti di valore per affrontare l'assegnazione del merito. Tuttavia, le reti di valore affrontano sfide nella previsione accurata delle ricompense cumulative attese in complesse attività di ragionamento, portando spesso a aggiornamenti ad alta varianza e prestazioni non ottimali. In questo lavoro, valutiamo sistematicamente l'efficacia delle reti di valore e riveliamo i loro significativi difetti nelle attività di LLM ricche di ragionamento, dimostrando che superano di poco una linea base casuale nel confronto dei passaggi alternativi. Per affrontare questo problema, proponiamo VinePPO, un approccio diretto che sfrutta la flessibilità degli ambienti linguistici per calcolare stime imparziali basate su Monte Carlo, evitando la necessità di grandi reti di valore. Il nostro metodo supera costantemente PPO e altre linee base RL-free sui dataset MATH e GSM8K con meno aggiornamenti del gradiente (fino a 9 volte), meno tempo effettivo (fino a 3,0 volte). Questi risultati sottolineano l'importanza dell'assegnazione accurata del merito nel raffinamento RL dei LLM e dimostrano il potenziale di VinePPO come alternativa superiore.
English
Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO's potential as a superior alternative.
PDF272November 16, 2024