PERL: Parameter Efficiënt Reinforcement Learning met Menselijke Feedback
PERL: Parameter Efficient Reinforcement Learning from Human Feedback
March 15, 2024
Auteurs: Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) heeft zich bewezen als een krachtige methode om voorgetrainde grote taalmmodellen (LLMs) af te stemmen op menselijke voorkeuren. Het trainen van modellen met RLHF is echter rekenintensief en een complex proces. In dit werk bestuderen we RLHF waarbij de onderliggende modellen worden getraind met de parameter-efficiënte methode van Low-Rank Adaptation (LoRA), geïntroduceerd door Hu et al. [2021]. We onderzoeken de opzet van "Parameter Efficient Reinforcement Learning" (PERL), waarbij we zowel het trainen van het beloningsmodel als reinforcement learning uitvoeren met behulp van LoRA. We vergelijken PERL met conventionele fine-tuning (full-tuning) over verschillende configuraties voor 7 benchmarks, waaronder 2 nieuwe datasets, voor beloningsmodellering en reinforcement learning. We constateren dat PERL vergelijkbaar presteert met de conventionele RLHF-instelling, terwijl het sneller traint en minder geheugen gebruikt. Dit maakt de hoge prestaties van RLHF mogelijk, terwijl de rekenlast wordt verminderd die de adoptie ervan als een afstemmingstechniek voor grote taalmmodellen beperkt. We brengen ook 2 nieuwe datasets uit voor voorkeuren (thumbs up/down): "Taskmaster Coffee" en "Taskmaster Ticketing" om onderzoek rond RLHF te bevorderen.
English
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong
method to align Pretrained Large Language Models (LLMs) with human preferences.
But training models with RLHF is computationally expensive, and an overall
complex process. In this work, we study RLHF where the underlying models are
trained using the parameter efficient method of Low-Rank Adaptation (LoRA)
introduced by Hu et al. [2021]. We investigate the setup of "Parameter
Efficient Reinforcement Learning" (PERL), in which we perform reward model
training and reinforcement learning using LoRA. We compare PERL to conventional
fine-tuning (full-tuning) across various configurations for 7 benchmarks,
including 2 novel datasets, of reward modeling and reinforcement learning. We
find that PERL performs on par with the conventional RLHF setting, while
training faster, and with less memory. This enables the high performance of
RLHF, while reducing the computational burden that limits its adoption as an
alignment technique for Large Language Models. We also release 2 novel thumbs
up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to
promote research around RLHF.