VinePPO: Разблокирование потенциала обучения с подкреплением для рассуждения на базе множества меток через улучшенное присвоение кредитов.
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
October 2, 2024
Авторы: Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
cs.AI
Аннотация
Большие языковые модели (LLM) все чаще применяются для выполнения сложных задач рассуждения, требующих выполнения нескольких сложных шагов перед получением вознаграждения. Правильное присвоение заслуг за эти шаги является важным для улучшения производительности модели. Метод оптимизации ближней политики (PPO), передовой алгоритм обучения с подкреплением (RL), используемый для донастройки LLM, применяет сети значений для решения проблемы присвоения заслуг. Однако сети значений сталкиваются с трудностями в точном прогнозировании ожидаемых накопленных вознаграждений в сложных задачах рассуждения, что часто приводит к обновлениям с высокой дисперсией и неоптимальной производительности. В данной работе мы систематически оцениваем эффективность сетей значений и раскрываем их значительные недостатки в задачах LLM с интенсивным рассуждением, показывая, что они едва превосходят случайный базис при сравнении альтернативных шагов. Для решения этой проблемы мы предлагаем VinePPO, простой подход, который использует гибкость языковых сред для вычисления несмещенных оценок на основе метода Монте-Карло, обходя необходимость в больших сетях значений. Наш метод последовательно превосходит PPO и другие базовые варианты RL на наборах данных MATH и GSM8K с меньшим количеством обновлений градиента (до 9 раз), меньшим временем настенных часов (до 3,0 раз). Эти результаты подчеркивают важность точного присвоения заслуг в донастройке RL LLM и демонстрируют потенциал VinePPO как более перспективной альтернативы.
English
Large language models (LLMs) are increasingly applied to complex reasoning
tasks that require executing several complex steps before receiving any reward.
Properly assigning credit to these steps is essential for enhancing model
performance. Proximal Policy Optimization (PPO), a state-of-the-art
reinforcement learning (RL) algorithm used for LLM finetuning, employs value
networks to tackle credit assignment. However, value networks face challenges
in predicting the expected cumulative rewards accurately in complex reasoning
tasks, often leading to high-variance updates and suboptimal performance. In
this work, we systematically evaluate the efficacy of value networks and reveal
their significant shortcomings in reasoning-heavy LLM tasks, showing that they
barely outperform a random baseline when comparing alternative steps. To
address this, we propose VinePPO, a straightforward approach that leverages the
flexibility of language environments to compute unbiased Monte Carlo-based
estimates, bypassing the need for large value networks. Our method consistently
outperforms PPO and other RL-free baselines across MATH and GSM8K datasets with
fewer gradient updates (up to 9x), less wall-clock time (up to 3.0x). These
results emphasize the importance of accurate credit assignment in RL finetuning
of LLM and demonstrate VinePPO's potential as a superior alternative.Summary
AI-Generated Summary