RLHF-Ablauf: Von der Belohnungsmodellierung bis zum Online-RLHF

papers.abstract

In diesem technischen Bericht präsentieren wir den Arbeitsablauf des Online-Iterativen Verstärkungslernens aus menschlichem Feedback (RLHF), der weithin als überlegen gegenüber seinem Offline-Gegenstück in der jüngsten Literatur zu großen Sprachmodellen (LLM) gilt. Allerdings sind bestehende Open-Source RLHF-Projekte immer noch weitgehend auf das Offline-Lernumfeld beschränkt. In diesem technischen Bericht zielen wir darauf ab, diese Lücke zu schließen und ein detailliertes Rezept bereitzustellen, das einfach reproduzierbar ist für das Online-Iterative RLHF. Insbesondere, da Online-Menschliches Feedback für Open-Source-Communities mit begrenzten Ressourcen in der Regel nicht durchführbar ist, beginnen wir damit, Präferenzmodelle unter Verwendung einer vielfältigen Auswahl an Open-Source-Datensätzen zu konstruieren und das konstruierte Proxy-Präferenzmodell zu verwenden, um menschliches Feedback zu approximieren. Anschließend diskutieren wir die theoretischen Erkenntnisse und algorithmischen Prinzipien hinter dem Online-Iterativen RLHF, gefolgt von einer detaillierten praktischen Umsetzung. Unser trainiertes LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, erzielt beeindruckende Leistungen bei LLM-Chatbot-Benchmarks, einschließlich AlpacaEval-2, Arena-Hard und MT-Bench, sowie anderen akademischen Benchmarks wie HumanEval und TruthfulQA. Wir haben gezeigt, dass überwachtes Feintuning (SFT) und Iteratives RLHF Spitzenleistungen mit vollständig Open-Source-Datensätzen erzielen können. Darüber hinaus haben wir unsere Modelle, kuratierten Datensätze und umfassenden Schritt-für-Schritt-Code-Anleitungen öffentlich zugänglich gemacht. Bitte beachten Sie für weitere detaillierte Informationen https://github.com/RLHFlow/RLHF-Reward-Modeling und https://github.com/RLHFlow/Online-RLHF.

English

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

RLHF-Ablauf: Von der Belohnungsmodellierung bis zum Online-RLHF

RLHF Workflow: From Reward Modeling to Online RLHF

papers.abstract

Support