VinePPO: Desbloqueando o Potencial de RL para Raciocínio de LLM Através de Atribuição de Crédito Refinada
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
October 2, 2024
Autores: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados a tarefas de raciocínio complexas que exigem a execução de vários passos complexos antes de receber qualquer recompensa. Atribuir corretamente crédito a esses passos é essencial para melhorar o desempenho do modelo. A Otimização de Política Próxima (PPO), um algoritmo de aprendizado por reforço (RL) de ponta usado para ajuste fino de LLM, emprega redes de valor para lidar com a atribuição de crédito. No entanto, as redes de valor enfrentam desafios na previsão precisa das recompensas cumulativas esperadas em tarefas de raciocínio complexas, frequentemente resultando em atualizações de alta variância e desempenho subótimo. Neste trabalho, avaliamos sistematicamente a eficácia das redes de valor e revelamos suas significativas deficiências em tarefas de LLM com foco em raciocínio, mostrando que mal superam uma linha de base aleatória ao comparar passos alternativos. Para lidar com isso, propomos o VinePPO, uma abordagem direta que aproveita a flexibilidade dos ambientes de linguagem para calcular estimativas imparciais baseadas em Monte Carlo, contornando a necessidade de grandes redes de valor. Nosso método supera consistentemente o PPO e outras linhas de base sem RL nos conjuntos de dados MATH e GSM8K com menos atualizações de gradiente (até 9x), menos tempo de relógio (até 3,0x). Esses resultados destacam a importância da atribuição precisa de crédito no ajuste fino de RL de LLM e demonstram o potencial do VinePPO como uma alternativa superior.
English
Large language models (LLMs) are increasingly applied to complex reasoning
tasks that require executing several complex steps before receiving any reward.
Properly assigning credit to these steps is essential for enhancing model
performance. Proximal Policy Optimization (PPO), a state-of-the-art
reinforcement learning (RL) algorithm used for LLM finetuning, employs value
networks to tackle credit assignment. However, value networks face challenges
in predicting the expected cumulative rewards accurately in complex reasoning
tasks, often leading to high-variance updates and suboptimal performance. In
this work, we systematically evaluate the efficacy of value networks and reveal
their significant shortcomings in reasoning-heavy LLM tasks, showing that they
barely outperform a random baseline when comparing alternative steps. To
address this, we propose VinePPO, a straightforward approach that leverages the
flexibility of language environments to compute unbiased Monte Carlo-based
estimates, bypassing the need for large value networks. Our method consistently
outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with
fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These
results emphasize the importance of accurate credit assignment in RL finetuning
of LLM and demonstrate VinePPO's potential as a superior alternative.Summary
AI-Generated Summary