ChatPaper.aiChatPaper

OpenRLHF: Een gebruiksvriendelijk, schaalbaar en hoogwaardig RLHF-framework

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

May 20, 2024
Auteurs: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI

Samenvatting

Naarmate grote taalmmodellen (LLMs) blijven groeien volgens schaalwetten, heeft reinforcement learning met menselijke feedback (RLHF) aanzienlijke aandacht gekregen vanwege zijn uitstekende prestaties. In tegenstelling tot het vooraf trainen of finetunen van een enkel model, brengt het opschalen van reinforcement learning met menselijke feedback (RLHF) voor het trainen van grote taalmmodellen coördinatie-uitdagingen met zich mee over vier modellen. Wij presenteren OpenRLHF, een open-source framework dat efficiënte RLHF-schaling mogelijk maakt. In tegenstelling tot bestaande RLHF-frameworks die vier modellen op dezelfde GPU's plaatsen, herontwerpt OpenRLHF de planning voor modellen met meer dan 70B parameters met behulp van Ray, vLLM en DeepSpeed, waarbij verbeterde resourcebenutting en diverse trainingsaanpakken worden benut. Naadloos geïntegreerd met Hugging Face biedt OpenRLHF een out-of-the-box oplossing met geoptimaliseerde algoritmen en startscripts, wat gebruiksvriendelijkheid garandeert. OpenRLHF implementeert RLHF, DPO, rejection sampling en andere alignmenttechnieken. OpenRLHF, dat de ontwikkeling van state-of-the-art LLM's mogelijk maakt, is beschikbaar op https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at https://github.com/OpenLLMAI/OpenRLHF.
PDF403January 24, 2026