VinePPO: Desbloqueando el Potencial de RL para el Razonamiento de LLM a través de la Asignación de Crédito Refinada
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
October 2, 2024
Autores: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) se aplican cada vez más a tareas de razonamiento complejo que requieren ejecutar varios pasos complejos antes de recibir alguna recompensa. Asignar adecuadamente crédito a estos pasos es esencial para mejorar el rendimiento del modelo. La Optimización de Políticas Proximales (PPO), un algoritmo de aprendizaje por refuerzo (RL) de vanguardia utilizado para el ajuste fino de LLM, emplea redes de valor para abordar la asignación de crédito. Sin embargo, las redes de valor enfrentan desafíos al predecir con precisión las recompensas acumulativas esperadas en tareas de razonamiento complejo, lo que a menudo resulta en actualizaciones de alta varianza y un rendimiento subóptimo. En este trabajo, evaluamos sistemáticamente la eficacia de las redes de valor y revelamos sus importantes deficiencias en tareas de LLM con un fuerte componente de razonamiento, demostrando que apenas superan una línea base aleatoria al comparar pasos alternativos. Para abordar esto, proponemos VinePPO, un enfoque sencillo que aprovecha la flexibilidad de los entornos de lenguaje para calcular estimaciones imparciales basadas en Monte Carlo, evitando la necesidad de grandes redes de valor. Nuestro método supera consistentemente a PPO y otras líneas base sin RL en los conjuntos de datos MATH y GSM8K con menos actualizaciones de gradiente (hasta 9 veces menos) y menos tiempo de reloj (hasta 3.0 veces menos). Estos resultados enfatizan la importancia de una asignación precisa de crédito en el ajuste fino de RL de LLM y demuestran el potencial de VinePPO como una alternativa superior.
English
Large language models (LLMs) are increasingly applied to complex reasoning
tasks that require executing several complex steps before receiving any reward.
Properly assigning credit to these steps is essential for enhancing model
performance. Proximal Policy Optimization (PPO), a state-of-the-art
reinforcement learning (RL) algorithm used for LLM finetuning, employs value
networks to tackle credit assignment. However, value networks face challenges
in predicting the expected cumulative rewards accurately in complex reasoning
tasks, often leading to high-variance updates and suboptimal performance. In
this work, we systematically evaluate the efficacy of value networks and reveal
their significant shortcomings in reasoning-heavy LLM tasks, showing that they
barely outperform a random baseline when comparing alternative steps. To
address this, we propose VinePPO, a straightforward approach that leverages the
flexibility of language environments to compute unbiased Monte Carlo-based
estimates, bypassing the need for large value networks. Our method consistently
outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with
fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These
results emphasize the importance of accurate credit assignment in RL finetuning
of LLM and demonstrate VinePPO's potential as a superior alternative.Summary
AI-Generated Summary