Flusso di lavoro RLHF: dalla modellazione della ricompensa all'RLHF online
RLHF Workflow: From Reward Modeling to Online RLHF
May 13, 2024
Autori: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI
Abstract
Presentiamo il flusso di lavoro dell'Apprendimento per Rinforzo Iterativo Online da Feedback Umano (RLHF) in questo rapporto tecnico, che è ampiamente riportato superare di gran lunga la sua controparte offline nella recente letteratura sui modelli linguistici di grandi dimensioni (LLM). Tuttavia, i progetti open-source esistenti di RLHF sono ancora in gran parte confinati all'impostazione di apprendimento offline. In questo rapporto tecnico, miriamo a colmare questa lacuna e fornire una ricetta dettagliata e facilmente riproducibile per l'RLHF iterativo online. In particolare, poiché il feedback umano online è solitamente impraticabile per le comunità open-source con risorse limitate, iniziamo costruendo modelli di preferenza utilizzando un insieme diversificato di dataset open-source e utilizziamo il modello di preferenza proxy costruito per approssimare il feedback umano. Successivamente, discutiamo le intuizioni teoriche e i principi algoritmici alla base dell'RLHF iterativo online, seguiti da un'implementazione pratica dettagliata. Il nostro LLM addestrato, SFR-Iterative-DPO-LLaMA-3-8B-R, ottiene prestazioni impressionanti sui benchmark per chatbot LLM, tra cui AlpacaEval-2, Arena-Hard e MT-Bench, nonché su altri benchmark accademici come HumanEval e TruthfulQA. Abbiamo dimostrato che l'addestramento supervisionato (SFT) e l'RLHF iterativo possono ottenere prestazioni all'avanguardia utilizzando dataset completamente open-source. Inoltre, abbiamo reso pubblicamente disponibili i nostri modelli, i dataset curati e guide dettagliate passo-passo con codice completo. Per ulteriori informazioni dettagliate, consultare https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human
Feedback (RLHF) in this technical report, which is widely reported to
outperform its offline counterpart by a large margin in the recent large
language model (LLM) literature. However, existing open-source RLHF projects
are still largely confined to the offline learning setting. In this technical
report, we aim to fill in this gap and provide a detailed recipe that is easy
to reproduce for online iterative RLHF. In particular, since online human
feedback is usually infeasible for open-source communities with limited
resources, we start by constructing preference models using a diverse set of
open-source datasets and use the constructed proxy preference model to
approximate human feedback. Then, we discuss the theoretical insights and
algorithmic principles behind online iterative RLHF, followed by a detailed
practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R,
achieves impressive performance on LLM chatbot benchmarks, including
AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks
such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning
(SFT) and iterative RLHF can obtain state-of-the-art performance with fully
open-source datasets. Further, we have made our models, curated datasets, and
comprehensive step-by-step code guidebooks publicly available. Please refer to
https://github.com/RLHFlow/RLHF-Reward-Modeling and
https://github.com/RLHFlow/Online-RLHF for more detailed information.