VinePPO: 精緻なクレジット割り当てを通じてLLM推論のためのRLポテンシャルを解き放つ
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
October 2, 2024
著者: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI
要旨
大規模言語モデル(LLMs)は、報酬を受け取る前に複数の複雑なステップを実行する必要がある複雑な推論タスクにますます適用されています。これらのステップに適切にクレジットを割り当てることは、モデルの性能向上に不可欠です。大規模言語モデルの微調整に使用される最先端の強化学習(RL)アルゴリズムであるProximal Policy Optimization(PPO)は、クレジットの割り当てに取り組むために価値ネットワークを使用しています。ただし、価値ネットワークは、複雑な推論タスクにおいて期待される累積報酬を正確に予測する際に課題に直面し、しばしば高分散の更新と最適でないパフォーマンスにつながります。本研究では、価値ネットワークの効果を体系的に評価し、推論重視のLLMタスクにおけるその重大な欠点を明らかにし、代替ステップの比較時にほとんどランダムなベースラインを上回ることがほとんどないことを示しています。この課題に対処するために、言語環境の柔軟性を活用してバイアスのないモンテカルロベースの推定値を計算し、大規模な価値ネットワークの必要性を回避するVinePPOという直感的なアプローチを提案しています。当社の手法は、MATHおよびGSM8Kデータセット全体でPPOおよび他のRLフリーベースラインを一貫して上回り、勾配更新が少なく(最大9倍)、壁時計時間が少なく(最大3.0倍)などの結果を示しています。これらの結果は、LLMのRL微調整における正確なクレジットの割り当ての重要性を強調し、VinePPOの潜在的な優れた代替手法としての可能性を示しています。
English
Large language models (LLMs) are increasingly applied to complex reasoning
tasks that require executing several complex steps before receiving any reward.
Properly assigning credit to these steps is essential for enhancing model
performance. Proximal Policy Optimization (PPO), a state-of-the-art
reinforcement learning (RL) algorithm used for LLM finetuning, employs value
networks to tackle credit assignment. However, value networks face challenges
in predicting the expected cumulative rewards accurately in complex reasoning
tasks, often leading to high-variance updates and suboptimal performance. In
this work, we systematically evaluate the efficacy of value networks and reveal
their significant shortcomings in reasoning-heavy LLM tasks, showing that they
barely outperform a random baseline when comparing alternative steps. To
address this, we propose VinePPO, a straightforward approach that leverages the
flexibility of language environments to compute unbiased Monte Carlo-based
estimates, bypassing the need for large value networks. Our method consistently
outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with
fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These
results emphasize the importance of accurate credit assignment in RL finetuning
of LLM and demonstrate VinePPO's potential as a superior alternative.Summary
AI-Generated Summary