OpenRLHF: Un Framework RLHF Facile da Usare, Scalabile e ad Alte Prestazioni
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Autori: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Abstract
Man mano che i grandi modelli linguistici (LLM) continuano a crescere seguendo le leggi di scala, l'apprendimento per rinforzo basato sul feedback umano (RLHF) ha guadagnato un'attenzione significativa grazie alle sue prestazioni eccezionali. Tuttavia, a differenza del pre-addestramento o del fine-tuning di un singolo modello, scalare l'apprendimento per rinforzo basato sul feedback umano (RLHF) per l'addestramento di grandi modelli linguistici presenta sfide di coordinamento tra quattro modelli. Presentiamo OpenRLHF, un framework open-source che consente una scalabilità efficiente dell'RLHF. A differenza dei framework RLHF esistenti che collocano i quattro modelli sugli stessi GPU, OpenRLHF riprogetta la pianificazione per i modelli oltre i 70B parametri utilizzando Ray, vLLM e DeepSpeed, sfruttando un migliore utilizzo delle risorse e approcci di addestramento diversificati. Integrandosi perfettamente con Hugging Face, OpenRLHF fornisce una soluzione pronta all'uso con algoritmi ottimizzati e script di avvio, garantendo così una facile fruibilità. OpenRLHF implementa RLHF, DPO, campionamento per rifiuto e altre tecniche di allineamento. Potenziando lo sviluppo di LLM all'avanguardia, il codice di OpenRLHF è disponibile all'indirizzo https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.