ChatPaper.aiChatPaper

PERL: Parameter Efficiënt Reinforcement Learning met Menselijke Feedback

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

March 15, 2024
Auteurs: Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon
cs.AI

Samenvatting

Reinforcement Learning from Human Feedback (RLHF) heeft zich bewezen als een krachtige methode om voorgetrainde grote taalmmodellen (LLMs) af te stemmen op menselijke voorkeuren. Het trainen van modellen met RLHF is echter rekenintensief en een complex proces. In dit werk bestuderen we RLHF waarbij de onderliggende modellen worden getraind met de parameter-efficiënte methode van Low-Rank Adaptation (LoRA), geïntroduceerd door Hu et al. [2021]. We onderzoeken de opzet van "Parameter Efficient Reinforcement Learning" (PERL), waarbij we zowel het trainen van het beloningsmodel als reinforcement learning uitvoeren met behulp van LoRA. We vergelijken PERL met conventionele fine-tuning (full-tuning) over verschillende configuraties voor 7 benchmarks, waaronder 2 nieuwe datasets, voor beloningsmodellering en reinforcement learning. We constateren dat PERL vergelijkbaar presteert met de conventionele RLHF-instelling, terwijl het sneller traint en minder geheugen gebruikt. Dit maakt de hoge prestaties van RLHF mogelijk, terwijl de rekenlast wordt verminderd die de adoptie ervan als een afstemmingstechniek voor grote taalmmodellen beperkt. We brengen ook 2 nieuwe datasets uit voor voorkeuren (thumbs up/down): "Taskmaster Coffee" en "Taskmaster Ticketing" om onderzoek rond RLHF te bevorderen.
English
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong method to align Pretrained Large Language Models (LLMs) with human preferences. But training models with RLHF is computationally expensive, and an overall complex process. In this work, we study RLHF where the underlying models are trained using the parameter efficient method of Low-Rank Adaptation (LoRA) introduced by Hu et al. [2021]. We investigate the setup of "Parameter Efficient Reinforcement Learning" (PERL), in which we perform reward model training and reinforcement learning using LoRA. We compare PERL to conventional fine-tuning (full-tuning) across various configurations for 7 benchmarks, including 2 novel datasets, of reward modeling and reinforcement learning. We find that PERL performs on par with the conventional RLHF setting, while training faster, and with less memory. This enables the high performance of RLHF, while reducing the computational burden that limits its adoption as an alignment technique for Large Language Models. We also release 2 novel thumbs up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to promote research around RLHF.
PDF594December 15, 2024