PERL: Aprendizado por Reforço Eficiente em Parâmetros a partir de Feedback Humano

Resumo

O Aprendizado por Reforço com Feedback Humano (RLHF) tem se mostrado um método eficaz para alinhar Modelos de Linguagem Pré-treinados de Grande Escala (LLMs) com as preferências humanas. No entanto, treinar modelos com RLHF é computacionalmente caro e um processo complexo. Neste trabalho, estudamos o RLHF onde os modelos subjacentes são treinados usando o método eficiente em parâmetros de Adaptação de Baixa Classificação (LoRA), introduzido por Hu et al. [2021]. Investigamos a configuração de "Aprendizado por Reforço Eficiente em Parâmetros" (PERL), na qual realizamos o treinamento do modelo de recompensa e o aprendizado por reforço usando LoRA. Comparamos o PERL ao ajuste fino convencional (ajuste completo) em várias configurações para 7 benchmarks, incluindo 2 novos conjuntos de dados, de modelagem de recompensa e aprendizado por reforço. Descobrimos que o PERL tem um desempenho equivalente ao cenário convencional de RLHF, enquanto treina mais rápido e com menos memória. Isso permite o alto desempenho do RLHF, ao mesmo tempo em que reduz o custo computacional que limita sua adoção como uma técnica de alinhamento para Modelos de Linguagem de Grande Escala. Também lançamos 2 novos conjuntos de dados de preferência thumbs up/down: "Taskmaster Coffee" e "Taskmaster Ticketing" para promover pesquisas em torno do RLHF.

English

Reinforcement Learning from Human Feedback (RLHF) has proven to be a strong method to align Pretrained Large Language Models (LLMs) with human preferences. But training models with RLHF is computationally expensive, and an overall complex process. In this work, we study RLHF where the underlying models are trained using the parameter efficient method of Low-Rank Adaptation (LoRA) introduced by Hu et al. [2021]. We investigate the setup of "Parameter Efficient Reinforcement Learning" (PERL), in which we perform reward model training and reinforcement learning using LoRA. We compare PERL to conventional fine-tuning (full-tuning) across various configurations for 7 benchmarks, including 2 novel datasets, of reward modeling and reinforcement learning. We find that PERL performs on par with the conventional RLHF setting, while training faster, and with less memory. This enables the high performance of RLHF, while reducing the computational burden that limits its adoption as an alignment technique for Large Language Models. We also release 2 novel thumbs up/down preference datasets: "Taskmaster Coffee", and "Taskmaster Ticketing" to promote research around RLHF.

PERL: Aprendizado por Reforço Eficiente em Parâmetros a partir de Feedback Humano

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Resumo

Support