OpenRLHF: Um Framework RLHF Fácil de Usar, Escalável e de Alto Desempenho
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Autores: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Resumo
À medida que os grandes modelos de linguagem (LLMs) continuam a crescer seguindo as leis de escala, o aprendizado por reforço com feedback humano (RLHF) tem ganhado atenção significativa devido ao seu desempenho excepcional. No entanto, ao contrário do pré-treinamento ou ajuste fino de um único modelo, escalar o aprendizado por reforço com feedback humano (RLHF) para treinar grandes modelos de linguagem apresenta desafios de coordenação entre quatro modelos. Apresentamos o OpenRLHF, um framework de código aberto que permite a escalabilidade eficiente do RLHF. Diferente dos frameworks de RLHF existentes que colocam os quatro modelos nas mesmas GPUs, o OpenRLHF redesenha o agendamento para modelos com mais de 70 bilhões de parâmetros utilizando Ray, vLLM e DeepSpeed, aproveitando a melhoria na utilização de recursos e abordagens de treinamento diversificadas. Integrando-se perfeitamente com o Hugging Face, o OpenRLHF oferece uma solução pronta para uso com algoritmos otimizados e scripts de inicialização, garantindo facilidade de uso. O OpenRLHF implementa RLHF, DPO, amostragem de rejeição e outras técnicas de alinhamento. Capacitando o desenvolvimento de LLMs de última geração, o código do OpenRLHF está disponível em https://github.com/OpenLLMAI/OpenRLHF.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.