Flujo de trabajo de RLHF: Desde el modelado de recompensas hasta RLHF en línea
RLHF Workflow: From Reward Modeling to Online RLHF
May 13, 2024
Autores: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI
Resumen
Presentamos el flujo de trabajo del Aprendizaje por Refuerzo Iterativo en Línea a partir de Retroalimentación Humana (RLHF) en este informe técnico, el cual ha sido ampliamente reportado como superior a su contraparte fuera de línea por un margen significativo en la literatura reciente sobre modelos de lenguaje grandes (LLM). Sin embargo, los proyectos de RLHF de código abierto existentes aún se encuentran mayormente limitados al entorno de aprendizaje fuera de línea. En este informe técnico, nuestro objetivo es llenar este vacío y proporcionar una receta detallada que sea fácil de reproducir para el RLHF iterativo en línea. En particular, dado que la retroalimentación humana en línea suele ser inviable para comunidades de código abierto con recursos limitados, comenzamos construyendo modelos de preferencia utilizando un conjunto diverso de conjuntos de datos de código abierto y empleamos el modelo de preferencia proxy construido para aproximar la retroalimentación humana. Luego, discutimos los fundamentos teóricos y los principios algorítmicos detrás del RLHF iterativo en línea, seguidos de una implementación práctica detallada. Nuestro LLM entrenado, SFR-Iterative-DPO-LLaMA-3-8B-R, logra un rendimiento impresionante en benchmarks de chatbots de LLM, incluyendo AlpacaEval-2, Arena-Hard y MT-Bench, así como en otros benchmarks académicos como HumanEval y TruthfulQA. Hemos demostrado que el ajuste fino supervisado (SFT) y el RLHF iterativo pueden alcanzar un rendimiento de vanguardia utilizando conjuntos de datos completamente de código abierto. Además, hemos puesto a disposición del público nuestros modelos, conjuntos de datos curados y guías de código paso a paso completas. Para obtener información más detallada, consulte https://github.com/RLHFlow/RLHF-Reward-Modeling y https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human
Feedback (RLHF) in this technical report, which is widely reported to
outperform its offline counterpart by a large margin in the recent large
language model (LLM) literature. However, existing open-source RLHF projects
are still largely confined to the offline learning setting. In this technical
report, we aim to fill in this gap and provide a detailed recipe that is easy
to reproduce for online iterative RLHF. In particular, since online human
feedback is usually infeasible for open-source communities with limited
resources, we start by constructing preference models using a diverse set of
open-source datasets and use the constructed proxy preference model to
approximate human feedback. Then, we discuss the theoretical insights and
algorithmic principles behind online iterative RLHF, followed by a detailed
practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R,
achieves impressive performance on LLM chatbot benchmarks, including
AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks
such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning
(SFT) and iterative RLHF can obtain state-of-the-art performance with fully
open-source datasets. Further, we have made our models, curated datasets, and
comprehensive step-by-step code guidebooks publicly available. Please refer to
https://github.com/RLHFlow/RLHF-Reward-Modeling and
https://github.com/RLHFlow/Online-RLHF for more detailed information.Summary
AI-Generated Summary