REINFORCE++: Ein einfacher und effizienter Ansatz zur Ausrichtung großer SprachmodelleREINFORCE++: A Simple and Efficient Approach for Aligning Large Language
Models
Das Lernen aus menschlichem Feedback (RLHF) hat sich als ein entscheidender Ansatz zur Ausrichtung großer Sprachmodelle an menschlichen Präferenzen herauskristallisiert und erlebt eine rasche algorithmische Evolution durch Methoden wie die Proximal Policy Optimization (PPO), die Direkte Präferenzoptimierung (DPO), REINFORCE Leave One-Out (RLOO), ReMax und die Gruppenbasierte Relative Policy Optimization (GRPO). Wir präsentieren REINFORCE++, eine verbesserte Variante des klassischen REINFORCE-Algorithmus, die Schlüsseloptimierungstechniken aus PPO integriert und dabei auf ein Kritikernetzwerk verzichtet. REINFORCE++ erreicht drei Hauptziele: (1) Einfachheit, (2) verbesserte Trainingsstabilität und (3) reduzierter Rechenaufwand. Durch umfangreiche empirische Evaluation zeigen wir, dass REINFORCE++ im Vergleich zu GRPO eine überlegene Stabilität aufweist und eine höhere Recheneffizienz als PPO erzielt, während die Leistung vergleichbar bleibt. Die Implementierung ist unter https://github.com/OpenRLHF/OpenRLHF verfügbar.