REINFORCE++: Un enfoque simple y eficiente para alinear modelos de lenguaje grandes.
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models
January 4, 2025
Autores: Jian Hu
cs.AI
Resumen
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha surgido como un enfoque crítico para alinear grandes modelos de lenguaje con las preferencias humanas, presenciando una rápida evolución algorítmica a través de métodos como la Optimización de Política Proximal (PPO), la Optimización Directa de Preferencias (DPO), REINFORCE Leave One-Out (RLOO), ReMax y la Optimización de Política Relativa de Grupo (GRPO). Presentamos REINFORCE++, una variante mejorada del algoritmo clásico REINFORCE que incorpora técnicas clave de optimización de PPO mientras elimina la necesidad de una red crítica. REINFORCE++ logra tres objetivos principales: (1) simplicidad, (2) estabilidad de entrenamiento mejorada y (3) reducción de la carga computacional. A través de una extensa evaluación empírica, demostramos que REINFORCE++ exhibe una estabilidad superior en comparación con GRPO y logra una mayor eficiencia computacional que PPO manteniendo un rendimiento comparable. La implementación está disponible en https://github.com/OpenRLHF/OpenRLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical
approach for aligning large language models with human preferences, witnessing
rapid algorithmic evolution through methods such as Proximal Policy
Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave
One-Out (RLOO), ReMax, and Group Relative Policy Optimization (GRPO). We
present REINFORCE++, an enhanced variant of the classical REINFORCE algorithm
that incorporates key optimization techniques from PPO while eliminating the
need for a critic network. REINFORCE++ achieves three primary objectives: (1)
simplicity (2) enhanced training stability, and (3) reduced computational
overhead. Through extensive empirical evaluation, we demonstrate that
REINFORCE++ exhibits superior stability compared to GRPO and achieves greater
computational efficiency than PPO while maintaining comparable performance. The
implementation is available at https://github.com/OpenRLHF/OpenRLHF.Summary
AI-Generated Summary