REINFORCE++: Un enfoque simple y eficiente para alinear modelos de lenguaje grandes.REINFORCE++: A Simple and Efficient Approach for Aligning Large Language
Models
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha surgido como un enfoque crítico para alinear grandes modelos de lenguaje con las preferencias humanas, presenciando una rápida evolución algorítmica a través de métodos como la Optimización de Política Proximal (PPO), la Optimización Directa de Preferencias (DPO), REINFORCE Leave One-Out (RLOO), ReMax y la Optimización de Política Relativa de Grupo (GRPO). Presentamos REINFORCE++, una variante mejorada del algoritmo clásico REINFORCE que incorpora técnicas clave de optimización de PPO mientras elimina la necesidad de una red crítica. REINFORCE++ logra tres objetivos principales: (1) simplicidad, (2) estabilidad de entrenamiento mejorada y (3) reducción de la carga computacional. A través de una extensa evaluación empírica, demostramos que REINFORCE++ exhibe una estabilidad superior en comparación con GRPO y logra una mayor eficiencia computacional que PPO manteniendo un rendimiento comparable. La implementación está disponible en https://github.com/OpenRLHF/OpenRLHF.