ChatPaper.aiChatPaper

OpenRLHF: 사용하기 쉬우면서 확장성과 고성능을 갖춘 RLHF 프레임워크

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

May 20, 2024
저자: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI

초록

대규모 언어 모델(LLM)이 스케일링 법칙에 따라 계속 성장함에 따라, 인간 피드백을 통한 강화 학습(RLHF)은 그 뛰어난 성능으로 인해 상당한 주목을 받고 있습니다. 그러나 단일 모델의 사전 학습이나 미세 조정과 달리, 대규모 언어 모델을 훈련하기 위한 RLHF의 스케일링은 네 가지 모델 간의 조율 문제를 야기합니다. 우리는 효율적인 RLHF 스케일링을 가능하게 하는 오픈소스 프레임워크인 OpenRLHF를 소개합니다. 기존의 RLHF 프레임워크가 네 가지 모델을 동일한 GPU에 배치하는 것과 달리, OpenRLHF는 Ray, vLLM, DeepSpeed를 활용하여 70B 이상의 파라미터를 가진 모델을 위한 스케줄링을 재설계하여 자원 활용도를 개선하고 다양한 훈련 접근법을 도입했습니다. Hugging Face와 원활하게 통합된 OpenRLHF는 최적화된 알고리즘과 실행 스크립트를 제공하여 사용자 친화성을 보장합니다. OpenRLHF는 RLHF, DPO, 거부 샘플링 및 기타 정렬 기법을 구현합니다. 최신 LLM 개발을 지원하는 OpenRLHF의 코드는 https://github.com/OpenLLMAI/OpenRLHF에서 확인할 수 있습니다.
English
As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at https://github.com/OpenLLMAI/OpenRLHF.

Summary

AI-Generated Summary

PDF393December 15, 2024