Flusso di lavoro RLHF: dalla modellazione della ricompensa all'RLHF online

Abstract

Presentiamo il flusso di lavoro dell'Apprendimento per Rinforzo Iterativo Online da Feedback Umano (RLHF) in questo rapporto tecnico, che è ampiamente riportato superare di gran lunga la sua controparte offline nella recente letteratura sui modelli linguistici di grandi dimensioni (LLM). Tuttavia, i progetti open-source esistenti di RLHF sono ancora in gran parte confinati all'impostazione di apprendimento offline. In questo rapporto tecnico, miriamo a colmare questa lacuna e fornire una ricetta dettagliata e facilmente riproducibile per l'RLHF iterativo online. In particolare, poiché il feedback umano online è solitamente impraticabile per le comunità open-source con risorse limitate, iniziamo costruendo modelli di preferenza utilizzando un insieme diversificato di dataset open-source e utilizziamo il modello di preferenza proxy costruito per approssimare il feedback umano. Successivamente, discutiamo le intuizioni teoriche e i principi algoritmici alla base dell'RLHF iterativo online, seguiti da un'implementazione pratica dettagliata. Il nostro LLM addestrato, SFR-Iterative-DPO-LLaMA-3-8B-R, ottiene prestazioni impressionanti sui benchmark per chatbot LLM, tra cui AlpacaEval-2, Arena-Hard e MT-Bench, nonché su altri benchmark accademici come HumanEval e TruthfulQA. Abbiamo dimostrato che l'addestramento supervisionato (SFT) e l'RLHF iterativo possono ottenere prestazioni all'avanguardia utilizzando dataset completamente open-source. Inoltre, abbiamo reso pubblicamente disponibili i nostri modelli, i dataset curati e guide dettagliate passo-passo con codice completo. Per ulteriori informazioni dettagliate, consultare https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF.

English

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Flusso di lavoro RLHF: dalla modellazione della ricompensa all'RLHF online

RLHF Workflow: From Reward Modeling to Online RLHF

Abstract

Support