OpenRLHF: Un marco de RLHF fácil de usar, escalable y de alto rendimiento
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Autores: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Resumen
A medida que los modelos de lenguaje grandes (LLMs) continúan creciendo siguiendo las leyes de escalamiento, el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) ha ganado una atención significativa debido a su rendimiento sobresaliente. Sin embargo, a diferencia del preentrenamiento o el ajuste fino de un solo modelo, escalar el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para entrenar modelos de lenguaje grandes presenta desafíos de coordinación entre cuatro modelos. Presentamos OpenRLHF, un marco de código abierto que permite un escalamiento eficiente de RLHF. A diferencia de los marcos de RLHF existentes que ubican los cuatro modelos en las mismas GPUs, OpenRLHF rediseña la programación para modelos con más de 70B parámetros utilizando Ray, vLLM y DeepSpeed, aprovechando una mejor utilización de recursos y diversos enfoques de entrenamiento. Integrándose perfectamente con Hugging Face, OpenRLHF ofrece una solución lista para usar con algoritmos optimizados y scripts de lanzamiento, lo que garantiza su facilidad de uso. OpenRLHF implementa RLHF, DPO, muestreo por rechazo y otras técnicas de alineación. Potenciando el desarrollo de LLMs de vanguardia, el código de OpenRLHF está disponible en https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.