RLHF-werkstroom: Van beloningsmodellering naar online RLHF
RLHF Workflow: From Reward Modeling to Online RLHF
May 13, 2024
Auteurs: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI
Samenvatting
In dit technisch rapport presenteren we de workflow van Online Iteratieve Reinforcement Learning from Human Feedback (RLHF), waarvan in de recente literatuur over grote taalmodellen (LLM) wordt gemeld dat het zijn offline tegenhanger met een grote marge overtreft. Bestaande open-source RLHF-projecten zijn echter nog grotendeels beperkt tot de offline leeromgeving. Met dit technisch rapport willen we deze kloof opvullen en een gedetailleerd recept bieden dat eenvoudig te reproduceren is voor online iteratieve RLHF. Aangezien online menselijke feedback meestal niet haalbaar is voor open-source gemeenschappen met beperkte middelen, beginnen we met het construeren van voorkeursmodellen met behulp van een diverse set open-source datasets en gebruiken we het geconstrueerde proxy-voorkeursmodel om menselijke feedback te benaderen. Vervolgens bespreken we de theoretische inzichten en algoritmische principes achter online iteratieve RLHF, gevolgd door een gedetailleerde praktische implementatie. Ons getrainde LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, behaalt indrukwekkende prestaties op LLM-chatbot benchmarks, waaronder AlpacaEval-2, Arena-Hard en MT-Bench, evenals andere academische benchmarks zoals HumanEval en TruthfulQA. We hebben aangetoond dat supervised fine-tuning (SFT) en iteratieve RLHF state-of-the-art prestaties kunnen bereiken met volledig open-source datasets. Bovendien hebben we onze modellen, gecureerde datasets en uitgebreide stapsgewijze codehandleidingen openbaar gemaakt. Raadpleeg https://github.com/RLHFlow/RLHF-Reward-Modeling en https://github.com/RLHFlow/Online-RLHF voor meer gedetailleerde informatie.
English
We present the workflow of Online Iterative Reinforcement Learning from Human
Feedback (RLHF) in this technical report, which is widely reported to
outperform its offline counterpart by a large margin in the recent large
language model (LLM) literature. However, existing open-source RLHF projects
are still largely confined to the offline learning setting. In this technical
report, we aim to fill in this gap and provide a detailed recipe that is easy
to reproduce for online iterative RLHF. In particular, since online human
feedback is usually infeasible for open-source communities with limited
resources, we start by constructing preference models using a diverse set of
open-source datasets and use the constructed proxy preference model to
approximate human feedback. Then, we discuss the theoretical insights and
algorithmic principles behind online iterative RLHF, followed by a detailed
practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R,
achieves impressive performance on LLM chatbot benchmarks, including
AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks
such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning
(SFT) and iterative RLHF can obtain state-of-the-art performance with fully
open-source datasets. Further, we have made our models, curated datasets, and
comprehensive step-by-step code guidebooks publicly available. Please refer to
https://github.com/RLHFlow/RLHF-Reward-Modeling and
https://github.com/RLHFlow/Online-RLHF for more detailed information.