Процесс RLHF: от моделирования вознаграждения до онлайн RLHF
RLHF Workflow: From Reward Modeling to Online RLHF
May 13, 2024
Авторы: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI
Аннотация
В данном техническом отчете мы представляем рабочий процесс онлайн итеративного обучения с подкреплением на основе обратной связи человека (RLHF), который, как сообщается, существенно превосходит свой оффлайн аналог в недавней литературе по большим языковым моделям (LLM). Однако существующие проекты RLHF с открытым исходным кодом по-прежнему в основном ограничены оффлайн средой обучения. В данном техническом отчете мы стремимся заполнить этот разрыв и предоставить подробное руководство, легко воспроизводимое для онлайн итеративного RLHF. В частности, поскольку онлайн обратная связь человека обычно недоступна для сообществ с ограниченными ресурсами с открытым исходным кодом, мы начинаем с построения моделей предпочтений с использованием разнообразного набора открытых наборов данных и используем построенную прокси-модель предпочтений для приближения обратной связи человека. Затем мы обсуждаем теоретические аспекты и алгоритмические принципы онлайн итеративного RLHF, за которыми следует подробная практическая реализация. Наша обученная LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, достигает впечатляющих результатов на бенчмарках чатботов LLM, включая AlpacaEval-2, Arena-Hard и MT-Bench, а также на других академических бенчмарках, таких как HumanEval и TruthfulQA. Мы показали, что надзорное дообучение (SFT) и итеративное RLHF могут достичь передовых результатов с полностью открытыми наборами данных. Кроме того, мы сделали наши модели, отобранные наборы данных и подробные пошаговые руководства по коду общедоступными. Дополнительную информацию можно найти на https://github.com/RLHFlow/RLHF-Reward-Modeling и https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human
Feedback (RLHF) in this technical report, which is widely reported to
outperform its offline counterpart by a large margin in the recent large
language model (LLM) literature. However, existing open-source RLHF projects
are still largely confined to the offline learning setting. In this technical
report, we aim to fill in this gap and provide a detailed recipe that is easy
to reproduce for online iterative RLHF. In particular, since online human
feedback is usually infeasible for open-source communities with limited
resources, we start by constructing preference models using a diverse set of
open-source datasets and use the constructed proxy preference model to
approximate human feedback. Then, we discuss the theoretical insights and
algorithmic principles behind online iterative RLHF, followed by a detailed
practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R,
achieves impressive performance on LLM chatbot benchmarks, including
AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks
such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning
(SFT) and iterative RLHF can obtain state-of-the-art performance with fully
open-source datasets. Further, we have made our models, curated datasets, and
comprehensive step-by-step code guidebooks publicly available. Please refer to
https://github.com/RLHFlow/RLHF-Reward-Modeling and
https://github.com/RLHFlow/Online-RLHF for more detailed information.Summary
AI-Generated Summary