ChatPaper.aiChatPaper

VinePPO: Erschließung des RL-Potenzials für LLM-Argumentation durch verfeinerte Kreditzuweisung

VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment

October 2, 2024
Autoren: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend auf komplexe Schlussfolgerungsaufgaben angewendet, die die Ausführung mehrerer komplexer Schritte erfordern, bevor eine Belohnung erfolgt. Die ordnungsgemäße Zuweisung von Krediten an diese Schritte ist entscheidend für die Verbesserung der Modellleistung. Proximal Policy Optimization (PPO), ein hochmodernes Verstärkungslernalgorithmus (RL), der für das Feintuning von LLMs verwendet wird, nutzt Wertnetzwerke zur Bewältigung der Kreditzuweisung. Wertnetzwerke stehen jedoch vor Herausforderungen bei der präzisen Vorhersage der erwarteten kumulativen Belohnungen bei komplexen Schlussfolgerungsaufgaben, was häufig zu Updates mit hoher Varianz und suboptimaler Leistung führt. In dieser Arbeit evaluieren wir systematisch die Wirksamkeit von Wertnetzwerken und offenbaren ihre erheblichen Mängel bei auf Schlussfolgerungen basierenden LLM-Aufgaben, indem wir zeigen, dass sie bei Vergleichen alternativer Schritte kaum besser abschneiden als ein zufälliger Basiswert. Um dies zu beheben, schlagen wir VinePPO vor, einen einfachen Ansatz, der die Flexibilität von Sprachumgebungen nutzt, um unvoreingenommene Monte Carlo-basierte Schätzungen zu berechnen und so auf große Wertnetzwerke zu verzichten. Unsere Methode übertrifft konsistent PPO und andere RL-freie Basislinien auf den MATH- und GSM8K-Datensätzen mit weniger Gradientenaktualisierungen (bis zu 9-fach) und weniger Wanduhrzeit (bis zu 3,0-fach). Diese Ergebnisse betonen die Bedeutung einer genauen Kreditzuweisung beim RL-Feintuning von LLMs und zeigen das Potenzial von VinePPO als überlegene Alternative auf.
English
Large language models (LLMs) are increasingly applied to complex reasoning tasks that require executing several complex steps before receiving any reward. Properly assigning credit to these steps is essential for enhancing model performance. Proximal Policy Optimization (PPO), a state-of-the-art reinforcement learning (RL) algorithm used for LLM finetuning, employs value networks to tackle credit assignment. However, value networks face challenges in predicting the expected cumulative rewards accurately in complex reasoning tasks, often leading to high-variance updates and suboptimal performance. In this work, we systematically evaluate the efficacy of value networks and reveal their significant shortcomings in reasoning-heavy LLM tasks, showing that they barely outperform a random baseline when comparing alternative steps. To address this, we propose VinePPO, a straightforward approach that leverages the flexibility of language environments to compute unbiased Monte Carlo-based estimates, bypassing the need for large value networks. Our method consistently outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These results emphasize the importance of accurate credit assignment in RL finetuning of LLM and demonstrate VinePPO's potential as a superior alternative.

Summary

AI-Generated Summary

PDF252November 16, 2024