OpenRLHF: Un Framework RLHF Facile da Usare, Scalabile e ad Alte Prestazioni

Abstract

Man mano che i grandi modelli linguistici (LLM) continuano a crescere seguendo le leggi di scala, l'apprendimento per rinforzo basato sul feedback umano (RLHF) ha guadagnato un'attenzione significativa grazie alle sue prestazioni eccezionali. Tuttavia, a differenza del pre-addestramento o del fine-tuning di un singolo modello, scalare l'apprendimento per rinforzo basato sul feedback umano (RLHF) per l'addestramento di grandi modelli linguistici presenta sfide di coordinamento tra quattro modelli. Presentiamo OpenRLHF, un framework open-source che consente una scalabilità efficiente dell'RLHF. A differenza dei framework RLHF esistenti che collocano i quattro modelli sugli stessi GPU, OpenRLHF riprogetta la pianificazione per i modelli oltre i 70B parametri utilizzando Ray, vLLM e DeepSpeed, sfruttando un migliore utilizzo delle risorse e approcci di addestramento diversificati. Integrandosi perfettamente con Hugging Face, OpenRLHF fornisce una soluzione pronta all'uso con algoritmi ottimizzati e script di avvio, garantendo così una facile fruibilità. OpenRLHF implementa RLHF, DPO, campionamento per rifiuto e altre tecniche di allineamento. Potenziando lo sviluppo di LLM all'avanguardia, il codice di OpenRLHF è disponibile all'indirizzo https://github.com/OpenLLMAI/OpenRLHF.

English

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at https://github.com/OpenLLMAI/OpenRLHF.

OpenRLHF: Un Framework RLHF Facile da Usare, Scalabile e ad Alte Prestazioni

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

Abstract

Support