ChatPaper.aiChatPaper

PERL : Apprentissage par Renforcement Efficace en Paramètres à partir de Retours Humains

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

March 15, 2024
Auteurs: Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) s'est avéré être une méthode puissante pour aligner les grands modèles de langage pré-entraînés (LLMs) avec les préférences humaines. Cependant, l'entraînement des modèles avec RLHF est coûteux en calcul et constitue un processus globalement complexe. Dans ce travail, nous étudions RLHF où les modèles sous-jacents sont entraînés en utilisant la méthode efficace en paramètres de l'Adaptation de Bas Rang (LoRA) introduite par Hu et al. [2021]. Nous explorons le cadre de "l'Apprentissage par Renforcement Efficace en Paramètres" (PERL), dans lequel nous effectuons l'entraînement du modèle de récompense et l'apprentissage par renforcement en utilisant LoRA. Nous comparons PERL au réglage fin conventionnel (réglage complet) à travers diverses configurations pour 7 benchmarks, incluant 2 nouveaux ensembles de données, de modélisation de récompense et d'apprentissage par renforcement. Nous constatons que PERL performe aussi bien que le cadre RLHF conventionnel, tout en s'entraînant plus rapidement et avec moins de mémoire. Cela permet d'atteindre les hautes performances de RLHF, tout en réduisant le fardeau computationnel qui limite son adoption comme technique d'alignement pour les grands modèles de langage. Nous publions également 2 nouveaux ensembles de données de préférences "pouce en haut/pouce en bas" : "Taskmaster Coffee" et "Taskmaster Ticketing" pour promouvoir la recherche autour de RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong method to align Pretrained Large Language Models (LLMs) with human preferences. But training models with RLHF is computationally expensive, and an overall complex process. In this work, we study RLHF where the underlying models are trained using the parameter efficient method of Low-Rank Adaptation (LoRA) introduced by Hu et al. [2021]. We investigate the setup of "Parameter Efficient Reinforcement Learning" (PERL), in which we perform reward model training and reinforcement learning using LoRA. We compare PERL to conventional fine-tuning (full-tuning) across various configurations for 7 benchmarks, including 2 novel datasets, of reward modeling and reinforcement learning. We find that PERL performs on par with the conventional RLHF setting, while training faster, and with less memory. This enables the high performance of RLHF, while reducing the computational burden that limits its adoption as an alignment technique for Large Language Models. We also release 2 novel thumbs up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to promote research around RLHF.

Summary

AI-Generated Summary

PDF604December 15, 2024