PERL: Aprendizado por Reforço Eficiente em Parâmetros a partir de Feedback Humano
PERL: Parameter Efficient Reinforcement Learning from Human Feedback
March 15, 2024
Autores: Hakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon
cs.AI
Resumo
O Aprendizado por Reforço com Feedback Humano (RLHF) tem se mostrado um método eficaz para alinhar Modelos de Linguagem Pré-treinados de Grande Escala (LLMs) com as preferências humanas. No entanto, treinar modelos com RLHF é computacionalmente caro e um processo complexo. Neste trabalho, estudamos o RLHF onde os modelos subjacentes são treinados usando o método eficiente em parâmetros de Adaptação de Baixa Classificação (LoRA), introduzido por Hu et al. [2021]. Investigamos a configuração de "Aprendizado por Reforço Eficiente em Parâmetros" (PERL), na qual realizamos o treinamento do modelo de recompensa e o aprendizado por reforço usando LoRA. Comparamos o PERL ao ajuste fino convencional (ajuste completo) em várias configurações para 7 benchmarks, incluindo 2 novos conjuntos de dados, de modelagem de recompensa e aprendizado por reforço. Descobrimos que o PERL tem um desempenho equivalente ao cenário convencional de RLHF, enquanto treina mais rápido e com menos memória. Isso permite o alto desempenho do RLHF, ao mesmo tempo em que reduz o custo computacional que limita sua adoção como uma técnica de alinhamento para Modelos de Linguagem de Grande Escala. Também lançamos 2 novos conjuntos de dados de preferência thumbs up/down: "Taskmaster Coffee" e "Taskmaster Ticketing" para promover pesquisas em torno do RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong
method to align Pretrained Large Language Models (LLMs) with human preferences.
But training models with RLHF is computationally expensive, and an overall
complex process. In this work, we study RLHF where the underlying models are
trained using the parameter efficient method of Low-Rank Adaptation (LoRA)
introduced by Hu et al. [2021]. We investigate the setup of "Parameter
Efficient Reinforcement Learning" (PERL), in which we perform reward model
training and reinforcement learning using LoRA. We compare PERL to conventional
fine-tuning (full-tuning) across various configurations for 7 benchmarks,
including 2 novel datasets, of reward modeling and reinforcement learning. We
find that PERL performs on par with the conventional RLHF setting, while
training faster, and with less memory. This enables the high performance of
RLHF, while reducing the computational burden that limits its adoption as an
alignment technique for Large Language Models. We also release 2 novel thumbs
up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to
promote research around RLHF.