OpenRLHF: Ein benutzerfreundliches, skalierbares und leistungsstarkes RLHF-Framework.
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
May 20, 2024
Autoren: Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
cs.AI
Zusammenfassung
Da große Sprachmodelle (LLMs) weiterhin nach Skalierungsgesetzen wachsen, hat die Verstärkungslernmethode durch menschliches Feedback (RLHF) aufgrund ihrer herausragenden Leistung erhebliche Aufmerksamkeit erlangt. Im Gegensatz zum Vorabtraining oder Feinabstimmung eines einzelnen Modells stellen sich bei der Skalierung des Verstärkungslernens durch menschliches Feedback (RLHF) für das Training großer Sprachmodelle Koordinationsherausforderungen über vier Modelle hinweg. Wir stellen OpenRLHF vor, ein Open-Source-Framework, das eine effiziente Skalierung von RLHF ermöglicht. Im Gegensatz zu bestehenden RLHF-Frameworks, die vier Modelle auf denselben GPUs zusammenführen, gestaltet OpenRLHF die Terminplanung für Modelle jenseits von 70 Milliarden Parametern neu, indem es Ray, vLLM und DeepSpeed nutzt, um eine verbesserte Ressourcennutzung und vielfältige Schulungsansätze zu ermöglichen. Durch nahtlose Integration mit Hugging Face bietet OpenRLHF eine sofort einsatzbereite Lösung mit optimierten Algorithmen und Startskripten, die Benutzerfreundlichkeit gewährleisten. OpenRLHF implementiert RLHF, DPO, Ablehnungsabtastung und andere Ausrichtungstechniken. Zur Förderung der Entwicklung von Spitzen-Sprachmodellen ist der Code von OpenRLHF unter https://github.com/OpenLLMAI/OpenRLHF verfügbar.
English
As large language models (LLMs) continue to grow by scaling laws,
reinforcement learning from human feedback (RLHF) has gained significant
attention due to its outstanding performance. However, unlike pretraining or
fine-tuning a single model, scaling reinforcement learning from human feedback
(RLHF) for training large language models poses coordination challenges across
four models. We present OpenRLHF, an open-source framework enabling efficient
RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the
same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters
using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and
diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF
provides an out-of-the-box solution with optimized algorithms and launch
scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO,
rejection sampling, and other alignment techniques. Empowering state-of-the-art
LLM development, OpenRLHF's code is available at
https://github.com/OpenLLMAI/OpenRLHF.Summary
AI-Generated Summary