ChatPaper.aiChatPaper

PERL: 인간 피드백을 통한 파라미터 효율적 강화 학습

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

March 15, 2024
저자: Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)은 사전 학습된 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 강력한 방법으로 입증되었습니다. 그러나 RLHF로 모델을 학습시키는 것은 계산 비용이 많이 들고 전반적으로 복잡한 과정입니다. 본 연구에서는 Hu et al. [2021]이 제안한 매개변수 효율적 방법인 Low-Rank Adaptation(LoRA)를 사용하여 기본 모델을 학습시키는 RLHF를 연구합니다. 우리는 LoRA를 사용하여 보상 모델 학습과 강화 학습을 수행하는 "매개변수 효율적 강화 학습"(PERL) 설정을 조사합니다. PERL을 기존의 미세 조정(전체 조정)과 비교하여 보상 모델링 및 강화 학습을 위한 2개의 새로운 데이터셋을 포함한 7개의 벤치마크에서 다양한 구성을 평가합니다. 우리는 PERL이 기존 RLHF 설정과 동등한 성능을 보이면서도 더 빠르고 적은 메모리로 학습할 수 있음을 발견했습니다. 이를 통해 RLHF의 높은 성능을 유지하면서도 대규모 언어 모델에 대한 정렬 기술로의 채택을 제한하는 계산 부담을 줄일 수 있습니다. 또한 RLHF 연구를 촉진하기 위해 "Taskmaster Coffee"와 "Taskmaster Ticketing"이라는 두 가지 새로운 선호도 데이터셋을 공개합니다.
English
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong method to align Pretrained Large Language Models (LLMs) with human preferences. But training models with RLHF is computationally expensive, and an overall complex process. In this work, we study RLHF where the underlying models are trained using the parameter efficient method of Low-Rank Adaptation (LoRA) introduced by Hu et al. [2021]. We investigate the setup of "Parameter Efficient Reinforcement Learning" (PERL), in which we perform reward model training and reinforcement learning using LoRA. We compare PERL to conventional fine-tuning (full-tuning) across various configurations for 7 benchmarks, including 2 novel datasets, of reward modeling and reinforcement learning. We find that PERL performs on par with the conventional RLHF setting, while training faster, and with less memory. This enables the high performance of RLHF, while reducing the computational burden that limits its adoption as an alignment technique for Large Language Models. We also release 2 novel thumbs up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to promote research around RLHF.

Summary

AI-Generated Summary

PDF604December 15, 2024