OpenRLHF: Ein benutzerfreundliches, skalierbares und leistungsstarkes RLHF-Framework.

papers.abstract

Da große Sprachmodelle (LLMs) weiterhin nach Skalierungsgesetzen wachsen, hat die Verstärkungslernmethode durch menschliches Feedback (RLHF) aufgrund ihrer herausragenden Leistung erhebliche Aufmerksamkeit erlangt. Im Gegensatz zum Vorabtraining oder Feinabstimmung eines einzelnen Modells stellen sich bei der Skalierung des Verstärkungslernens durch menschliches Feedback (RLHF) für das Training großer Sprachmodelle Koordinationsherausforderungen über vier Modelle hinweg. Wir stellen OpenRLHF vor, ein Open-Source-Framework, das eine effiziente Skalierung von RLHF ermöglicht. Im Gegensatz zu bestehenden RLHF-Frameworks, die vier Modelle auf denselben GPUs zusammenführen, gestaltet OpenRLHF die Terminplanung für Modelle jenseits von 70 Milliarden Parametern neu, indem es Ray, vLLM und DeepSpeed nutzt, um eine verbesserte Ressourcennutzung und vielfältige Schulungsansätze zu ermöglichen. Durch nahtlose Integration mit Hugging Face bietet OpenRLHF eine sofort einsatzbereite Lösung mit optimierten Algorithmen und Startskripten, die Benutzerfreundlichkeit gewährleisten. OpenRLHF implementiert RLHF, DPO, Ablehnungsabtastung und andere Ausrichtungstechniken. Zur Förderung der Entwicklung von Spitzen-Sprachmodellen ist der Code von OpenRLHF unter https://github.com/OpenLLMAI/OpenRLHF verfügbar.

English

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (RLHF) has gained significant attention due to its outstanding performance. However, unlike pretraining or fine-tuning a single model, scaling reinforcement learning from human feedback (RLHF) for training large language models poses coordination challenges across four models. We present OpenRLHF, an open-source framework enabling efficient RLHF scaling. Unlike existing RLHF frameworks that co-locate four models on the same GPUs, OpenRLHF re-designs scheduling for the models beyond 70B parameters using Ray, vLLM, and DeepSpeed, leveraging improved resource utilization and diverse training approaches. Integrating seamlessly with Hugging Face, OpenRLHF provides an out-of-the-box solution with optimized algorithms and launch scripts, which ensures user-friendliness. OpenRLHF implements RLHF, DPO, rejection sampling, and other alignment techniques. Empowering state-of-the-art LLM development, OpenRLHF's code is available at https://github.com/OpenLLMAI/OpenRLHF.

OpenRLHF: Ein benutzerfreundliches, skalierbares und leistungsstarkes RLHF-Framework.

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

papers.abstract

Support