OpenRLHF: Een gebruiksvriendelijk, schaalbaar en hoogwaardig RLHF-framework
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Auteurs: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Samenvatting
Naarmate grote taalmmodellen (LLMs) blijven groeien volgens schaalwetten, heeft reinforcement learning met menselijke feedback (RLHF) aanzienlijke aandacht gekregen vanwege zijn uitstekende prestaties. In tegenstelling tot het vooraf trainen of finetunen van een enkel model, brengt het opschalen van reinforcement learning met menselijke feedback (RLHF) voor het trainen van grote taalmmodellen coördinatie-uitdagingen met zich mee over vier modellen. Wij presenteren OpenRLHF, een open-source framework dat efficiënte RLHF-schaling mogelijk maakt. In tegenstelling tot bestaande RLHF-frameworks die vier modellen op dezelfde GPU's plaatsen, herontwerpt OpenRLHF de planning voor modellen met meer dan 70B parameters met behulp van Ray, vLLM en DeepSpeed, waarbij verbeterde resourcebenutting en diverse trainingsaanpakken worden benut. Naadloos geïntegreerd met Hugging Face biedt OpenRLHF een out-of-the-box oplossing met geoptimaliseerde algoritmen en startscripts, wat gebruiksvriendelijkheid garandeert. OpenRLHF implementeert RLHF, DPO, rejection sampling en andere alignmenttechnieken. OpenRLHF, dat de ontwikkeling van state-of-the-art LLM's mogelijk maakt, is beschikbaar op https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.