OpenRLHF: Простой в использовании, масштабируемый и высокопроизводительный фреймворк RLHF
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Авторы: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Аннотация
Поскольку крупные языковые модели (LLM) продолжают расти в соответствии с законами масштабирования, обучение с подкреплением на основе обратной связи от человека (RLHF) привлекло значительное внимание благодаря своим выдающимся показателям. Однако в отличие от предварительного обучения или донастройки одной модели, масштабирование обучения с подкреплением на основе обратной связи от человека (RLHF) для обучения крупных языковых моделей представляет собой вызов с точки зрения координации между четырьмя моделями. Мы представляем OpenRLHF, открытую платформу, обеспечивающую эффективное масштабирование RLHF. В отличие от существующих платформ RLHF, которые размещают четыре модели на одних и тех же графических процессорах, OpenRLHF перерабатывает планирование для моделей, превышающих 70 миллиардов параметров, с использованием Ray, vLLM и DeepSpeed, опираясь на улучшенное использование ресурсов и разнообразные методики обучения. Интегрируясь плавно с Hugging Face, OpenRLHF предоставляет готовое решение с оптимизированными алгоритмами и запускными скриптами, что обеспечивает удобство использования. OpenRLHF реализует RLHF, DPO, отборочную выборку и другие методы выравнивания. Повышая уровень развития LLM новейшего поколения, код OpenRLHF доступен по адресу https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.Summary
AI-Generated Summary