ChatPaper.aiChatPaper

REINFORCE++: Un enfoque simple y eficiente para alinear modelos de lenguaje grandes.

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

January 4, 2025
Autores: Jian Hu
cs.AI

Resumen

El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha surgido como un enfoque crítico para alinear grandes modelos de lenguaje con las preferencias humanas, presenciando una rápida evolución algorítmica a través de métodos como la Optimización de Política Proximal (PPO), la Optimización Directa de Preferencias (DPO), REINFORCE Leave One-Out (RLOO), ReMax y la Optimización de Política Relativa de Grupo (GRPO). Presentamos REINFORCE++, una variante mejorada del algoritmo clásico REINFORCE que incorpora técnicas clave de optimización de PPO mientras elimina la necesidad de una red crítica. REINFORCE++ logra tres objetivos principales: (1) simplicidad, (2) estabilidad de entrenamiento mejorada y (3) reducción de la carga computacional. A través de una extensa evaluación empírica, demostramos que REINFORCE++ exhibe una estabilidad superior en comparación con GRPO y logra una mayor eficiencia computacional que PPO manteniendo un rendimiento comparable. La implementación está disponible en https://github.com/OpenRLHF/OpenRLHF.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a critical approach for aligning large language models with human preferences, witnessing rapid algorithmic evolution through methods such as Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax, and Group Relative Policy Optimization (GRPO). We present REINFORCE++, an enhanced variant of the classical REINFORCE algorithm that incorporates key optimization techniques from PPO while eliminating the need for a critic network. REINFORCE++ achieves three primary objectives: (1) simplicity (2) enhanced training stability, and (3) reduced computational overhead. Through extensive empirical evaluation, we demonstrate that REINFORCE++ exhibits superior stability compared to GRPO and achieves greater computational efficiency than PPO while maintaining comparable performance. The implementation is available at https://github.com/OpenRLHF/OpenRLHF.

Summary

AI-Generated Summary

PDF992January 8, 2025