Het aanleren van redeneervaardigheden aan grote taalmodelen met behulp van reinforcement learning.
Teaching Large Language Models to Reason with Reinforcement Learning
March 7, 2024
Auteurs: Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, Roberta Raileanu
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) is naar voren gekomen als een dominante benadering voor het afstemmen van LLM-outputs op menselijke voorkeuren. Geïnspireerd door het succes van RLHF, bestuderen we de prestaties van meerdere algoritmen die leren van feedback (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) bij het verbeteren van de redeneervaardigheden van LLM's. We onderzoeken zowel schaarse als dichte beloningen die aan de LLM worden gegeven, zowel heuristisch als via een geleerd beloningsmodel. Daarnaast beginnen we met meerdere modelgroottes en initialisaties, zowel met als zonder supervised fine-tuning (SFT)-data. Over het algemeen vinden we dat alle algoritmen vergelijkbaar presteren, waarbij Expert Iteration in de meeste gevallen het beste presteert. Verrassend genoeg vinden we dat de samplecomplexiteit van Expert Iteration vergelijkbaar is met die van PPO, waarbij hooguit in de orde van 10^6 samples nodig zijn om te convergeren vanaf een vooraf getraind checkpoint. We onderzoeken waarom dit het geval is en concluderen dat modellen tijdens RL-training er niet in slagen om significant verder te verkennen dan de oplossingen die al door SFT-modellen zijn geproduceerd. Daarnaast bespreken we een afweging tussen de maj@1- en pass@96-metriekprestaties tijdens SFT-training en hoe RL-training omgekeerd beide tegelijkertijd verbetert. We sluiten af met een bespreking van de implicaties van onze bevindingen voor RLHF en de toekomstige rol van RL in LLM-finetuning.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a
dominant approach for aligning LLM outputs with human preferences. Inspired by
the success of RLHF, we study the performance of multiple algorithms that learn
from feedback (Expert Iteration, Proximal Policy Optimization (PPO),
Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate
both sparse and dense rewards provided to the LLM both heuristically and via a
learned reward model. We additionally start from multiple model sizes and
initializations both with and without supervised fine-tuning (SFT)
data. Overall, we find all algorithms perform comparably, with Expert Iteration
performing best in most cases. Surprisingly, we find the sample complexity of
Expert Iteration is similar to that of PPO, requiring at most on the order of
10^6 samples to converge from a pretrained checkpoint. We investigate why
this is the case, concluding that during RL training models fail to explore
significantly beyond solutions already produced by SFT models. Additionally, we
discuss a trade off between maj@1 and pass@96 metric performance during SFT
training and how conversely RL training improves both simultaneously. We then
conclude by discussing the implications of our findings for RLHF and the future
role of RL in LLM fine-tuning.