ChatPaper.aiChatPaper

VinePPO : Libérer le potentiel de l'apprentissage par renforcement pour le raisonnement LLM grâce à une attribution de crédit affinée

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

October 2, 2024
Auteurs: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI

Résumé

Les grands modèles de langage (LLM) sont de plus en plus utilisés pour des tâches de raisonnement complexe qui nécessitent l'exécution de plusieurs étapes complexes avant de recevoir une récompense. Attribuer correctement du crédit à ces étapes est essentiel pour améliorer les performances du modèle. L'optimisation de politique proximale (PPO), un algorithme d'apprentissage par renforcement (RL) de pointe utilisé pour le fine-tuning des LLM, utilise des réseaux de valeur pour aborder l'attribution de crédit. Cependant, les réseaux de valeur rencontrent des défis pour prédire de manière précise les récompenses cumulatives attendues dans des tâches de raisonnement complexe, entraînant souvent des mises à jour à haute variance et des performances sous-optimales. Dans ce travail, nous évaluons systématiquement l'efficacité des réseaux de valeur et révélons leurs lacunes significatives dans les tâches de LLM axées sur le raisonnement, montrant qu'ils surpassent à peine une référence aléatoire lors de la comparaison des étapes alternatives. Pour remédier à cela, nous proposons VinePPO, une approche simple qui tire parti de la flexibilité des environnements linguistiques pour calculer des estimations non biaisées basées sur Monte Carlo, contournant ainsi le besoin de grands réseaux de valeur. Notre méthode surpasse de manière constante PPO et d'autres références sans RL sur les ensembles de données MATH et GSM8K avec moins de mises à jour de gradient (jusqu'à 9x), moins de temps réel (jusqu'à 3,0x). Ces résultats soulignent l'importance de l'attribution précise de crédit dans le fine-tuning RL des LLM et démontrent le potentiel de VinePPO en tant qu'alternative supérieure.
English
Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO's potential as a superior alternative.

Summary

AI-Generated Summary

PDF252November 16, 2024