ChatPaper.aiChatPaper

REINFORCE++: Ein einfacher und effizienter Ansatz zur Ausrichtung großer Sprachmodelle

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

January 4, 2025
Autoren: Jian Hu
cs.AI

Zusammenfassung

Das Lernen aus menschlichem Feedback (RLHF) hat sich als ein entscheidender Ansatz zur Ausrichtung großer Sprachmodelle an menschlichen Präferenzen herauskristallisiert und erlebt eine rasche algorithmische Evolution durch Methoden wie die Proximal Policy Optimization (PPO), die Direkte Präferenzoptimierung (DPO), REINFORCE Leave One-Out (RLOO), ReMax und die Gruppenbasierte Relative Policy Optimization (GRPO). Wir präsentieren REINFORCE++, eine verbesserte Variante des klassischen REINFORCE-Algorithmus, die Schlüsseloptimierungstechniken aus PPO integriert und dabei auf ein Kritikernetzwerk verzichtet. REINFORCE++ erreicht drei Hauptziele: (1) Einfachheit, (2) verbesserte Trainingsstabilität und (3) reduzierter Rechenaufwand. Durch umfangreiche empirische Evaluation zeigen wir, dass REINFORCE++ im Vergleich zu GRPO eine überlegene Stabilität aufweist und eine höhere Recheneffizienz als PPO erzielt, während die Leistung vergleichbar bleibt. Die Implementierung ist unter https://github.com/OpenRLHF/OpenRLHF verfügbar.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical approach for aligning large language models with human preferences, witnessing rapid algorithmic evolution through methods such as Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax, and Group Relative Policy Optimization (GRPO). We present REINFORCE++, an enhanced variant of the classical REINFORCE algorithm that incorporates key optimization techniques from PPO while eliminating the need for a critic network. REINFORCE++ achieves three primary objectives: (1) simplicity (2) enhanced training stability, and (3) reduced computational overhead. Through extensive empirical evaluation, we demonstrate that REINFORCE++ exhibits superior stability compared to GRPO and achieves greater computational efficiency than PPO while maintaining comparable performance. The implementation is available at https://github.com/OpenRLHF/OpenRLHF.

Summary

AI-Generated Summary

PDF992January 8, 2025