OpenRLHF : Un cadre RLHF facile à utiliser, évolutif et performant
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Auteurs: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) continuent de croître selon les lois d'échelle, l'apprentissage par renforcement à partir de retours humains (RLHF) a suscité une attention significative en raison de ses performances exceptionnelles. Cependant, contrairement au pré-entraînement ou au réglage fin d'un seul modèle, la mise à l'échelle de l'apprentissage par renforcement à partir de retours humains (RLHF) pour l'entraînement de grands modèles de langage présente des défis de coordination entre quatre modèles. Nous présentons OpenRLHF, un cadre open-source permettant une mise à l'échelle efficace du RLHF. Contrairement aux cadres RLHF existants qui co-localisent quatre modèles sur les mêmes GPU, OpenRLHF reconçoit la planification pour les modèles dépassant 70 milliards de paramètres en utilisant Ray, vLLM et DeepSpeed, tirant parti d'une meilleure utilisation des ressources et de diverses approches d'entraînement. S'intégrant de manière transparente avec Hugging Face, OpenRLHF propose une solution prête à l'emploi avec des algorithmes optimisés et des scripts de lancement, garantissant ainsi une convivialité. OpenRLHF implémente le RLHF, le DPO, l'échantillonnage par rejet et d'autres techniques d'alignement. Favorisant le développement de LLM de pointe, le code d'OpenRLHF est disponible à l'adresse https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.Summary
AI-Generated Summary