ChatPaper.aiChatPaper

RLHF-Ablauf: Von der Belohnungsmodellierung bis zum Online-RLHF

RLHF Workflow: From Reward Modeling to Online RLHF

May 13, 2024
Autoren: Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang
cs.AI

Zusammenfassung

In diesem technischen Bericht präsentieren wir den Arbeitsablauf des Online-Iterativen Verstärkungslernens aus menschlichem Feedback (RLHF), der weithin als überlegen gegenüber seinem Offline-Gegenstück in der jüngsten Literatur zu großen Sprachmodellen (LLM) gilt. Allerdings sind bestehende Open-Source RLHF-Projekte immer noch weitgehend auf das Offline-Lernumfeld beschränkt. In diesem technischen Bericht zielen wir darauf ab, diese Lücke zu schließen und ein detailliertes Rezept bereitzustellen, das einfach reproduzierbar ist für das Online-Iterative RLHF. Insbesondere, da Online-Menschliches Feedback für Open-Source-Communities mit begrenzten Ressourcen in der Regel nicht durchführbar ist, beginnen wir damit, Präferenzmodelle unter Verwendung einer vielfältigen Auswahl an Open-Source-Datensätzen zu konstruieren und das konstruierte Proxy-Präferenzmodell zu verwenden, um menschliches Feedback zu approximieren. Anschließend diskutieren wir die theoretischen Erkenntnisse und algorithmischen Prinzipien hinter dem Online-Iterativen RLHF, gefolgt von einer detaillierten praktischen Umsetzung. Unser trainiertes LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, erzielt beeindruckende Leistungen bei LLM-Chatbot-Benchmarks, einschließlich AlpacaEval-2, Arena-Hard und MT-Bench, sowie anderen akademischen Benchmarks wie HumanEval und TruthfulQA. Wir haben gezeigt, dass überwachtes Feintuning (SFT) und Iteratives RLHF Spitzenleistungen mit vollständig Open-Source-Datensätzen erzielen können. Darüber hinaus haben wir unsere Modelle, kuratierten Datensätze und umfassenden Schritt-für-Schritt-Code-Anleitungen öffentlich zugänglich gemacht. Bitte beachten Sie für weitere detaillierte Informationen https://github.com/RLHFlow/RLHF-Reward-Modeling und https://github.com/RLHFlow/Online-RLHF.
English
We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Summary

AI-Generated Summary

PDF715December 15, 2024