Flux de travail RLHF : De la modélisation de la récompense au RLHF en ligne
RLHF Workflow: From Reward Modeling to Online RLHF
May 13, 2024
papers.authors: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI
papers.abstract
Nous présentons dans ce rapport technique le flux de travail de l'apprentissage par renforcement itératif en ligne à partir de retours humains (RLHF), une méthode largement reconnue pour surpasser de manière significative son homologue hors ligne dans la littérature récente sur les grands modèles de langage (LLM). Cependant, les projets open-source existants en RLHF restent largement confinés au cadre d'apprentissage hors ligne. Dans ce rapport technique, nous visons à combler cette lacune et à fournir une recette détaillée et facilement reproductible pour le RLHF itératif en ligne. En particulier, puisque les retours humains en ligne sont généralement irréalisables pour les communautés open-source aux ressources limitées, nous commençons par construire des modèles de préférence en utilisant un ensemble diversifié de jeux de données open-source, puis utilisons ce modèle de préférence proxy pour approximer les retours humains. Ensuite, nous discutons des insights théoriques et des principes algorithmiques sous-jacents au RLHF itératif en ligne, suivis d'une implémentation pratique détaillée. Notre LLM entraîné, SFR-Iterative-DPO-LLaMA-3-8B-R, obtient des performances impressionnantes sur les benchmarks de chatbots LLM, notamment AlpacaEval-2, Arena-Hard et MT-Bench, ainsi que sur d'autres benchmarks académiques tels que HumanEval et TruthfulQA. Nous avons démontré que le fine-tuning supervisé (SFT) et le RLHF itératif peuvent atteindre des performances de pointe avec des jeux de données entièrement open-source. De plus, nous avons rendu publics nos modèles, les jeux de données curatés et des guides de code étape par étape complets. Pour plus de détails, veuillez consulter https://github.com/RLHFlow/RLHF-Reward-Modeling et https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human
Feedback (RLHF) in this technical report, which is widely reported to
outperform its offline counterpart by a large margin in the recent large
language model (LLM) literature. However, existing open-source RLHF projects
are still largely confined to the offline learning setting. In this technical
report, we aim to fill in this gap and provide a detailed recipe that is easy
to reproduce for online iterative RLHF. In particular, since online human
feedback is usually infeasible for open-source communities with limited
resources, we start by constructing preference models using a diverse set of
open-source datasets and use the constructed proxy preference model to
approximate human feedback. Then, we discuss the theoretical insights and
algorithmic principles behind online iterative RLHF, followed by a detailed
practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R,
achieves impressive performance on LLM chatbot benchmarks, including
AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks
such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning
(SFT) and iterative RLHF can obtain state-of-the-art performance with fully
open-source datasets. Further, we have made our models, curated datasets, and
comprehensive step-by-step code guidebooks publicly available. Please refer to
https://github.com/RLHFlow/RLHF-Reward-Modeling and
https://github.com/RLHFlow/Online-RLHF for more detailed information.