ChatPaper.aiChatPaper

Flusso di lavoro RLHF: dalla modellazione della ricompensa all'RLHF online

RLHF Workflow: From Reward Modeling to Online RLHF

May 13, 2024
Autori: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI

Abstract

Presentiamo il flusso di lavoro dell'Apprendimento per Rinforzo Iterativo Online da Feedback Umano (RLHF) in questo rapporto tecnico, che è ampiamente riportato superare di gran lunga la sua controparte offline nella recente letteratura sui modelli linguistici di grandi dimensioni (LLM). Tuttavia, i progetti open-source esistenti di RLHF sono ancora in gran parte confinati all'impostazione di apprendimento offline. In questo rapporto tecnico, miriamo a colmare questa lacuna e fornire una ricetta dettagliata e facilmente riproducibile per l'RLHF iterativo online. In particolare, poiché il feedback umano online è solitamente impraticabile per le comunità open-source con risorse limitate, iniziamo costruendo modelli di preferenza utilizzando un insieme diversificato di dataset open-source e utilizziamo il modello di preferenza proxy costruito per approssimare il feedback umano. Successivamente, discutiamo le intuizioni teoriche e i principi algoritmici alla base dell'RLHF iterativo online, seguiti da un'implementazione pratica dettagliata. Il nostro LLM addestrato, SFR-Iterative-DPO-LLaMA-3-8B-R, ottiene prestazioni impressionanti sui benchmark per chatbot LLM, tra cui AlpacaEval-2, Arena-Hard e MT-Bench, nonché su altri benchmark accademici come HumanEval e TruthfulQA. Abbiamo dimostrato che l'addestramento supervisionato (SFT) e l'RLHF iterativo possono ottenere prestazioni all'avanguardia utilizzando dataset completamente open-source. Inoltre, abbiamo reso pubblicamente disponibili i nostri modelli, i dataset curati e guide dettagliate passo-passo con codice completo. Per ulteriori informazioni dettagliate, consultare https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.
PDF715February 8, 2026