Delgado y Eficiente: Optimización de Políticas de Valor Desacoplado con Guía de Valor Global
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance
February 24, 2025
Autores: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) basado en Optimización de Políticas Proximales (PPO) es esencial para alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas. Este enfoque requiere el entrenamiento conjunto de un actor y un crítico con un modelo de recompensa preentrenado y fijo como guía. Este método aumenta la complejidad computacional y la inestabilidad debido a la interdependencia entre el actor y el crítico. Además, PPO no tiene acceso a las recompensas reales del entorno en tareas de LLM, lo que limita su adaptabilidad. En tales condiciones, el preentrenamiento de un modelo de valor o un modelo de recompensa se vuelve equivalente, ya que ambos proporcionan señales de supervisión fijas sin nueva retroalimentación de verdad fundamental. Para abordar estos problemas, proponemos la Optimización de Políticas con Valor Desacoplado (DVPO), un marco ligero que reemplaza el modelado tradicional de recompensas con un modelo de valor global preentrenado (GVM). El GVM está condicionado a las trayectorias de la política y predice estimaciones de retorno a nivel de token. Al desacoplar el modelo de valor del entrenamiento de la política (mediante objetivos de RL impulsados por un GVM congelado), DVPO elimina la interdependencia entre el actor y el crítico, reduciendo el uso de memoria GPU en un 40\% y el tiempo de entrenamiento en un 35\% en comparación con el RLHF convencional. Los experimentos en diversos benchmarks muestran que DVPO supera a los métodos eficientes de RLHF (por ejemplo, DPO) mientras iguala el rendimiento del PPO de última generación.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human
Feedback (RLHF) is essential for aligning large language models (LLMs) with
human preferences. It requires joint training of an actor and critic with a
pretrained, fixed reward model for guidance. This approach increases
computational complexity and instability due to actor-critic interdependence.
Additionally, PPO lacks access to true environment rewards in LLM tasks,
limiting its adaptability. Under such conditions, pretraining a value model or
a reward model becomes equivalent, as both provide fixed supervisory signals
without new ground-truth feedback. To address these issues, we propose
Decoupled Value Policy Optimization (DVPO), a lean framework that
replaces traditional reward modeling with a pretrained global value model
(GVM). The GVM is conditioned on policy trajectories and predicts token-level
return-to-go estimates. By decoupling value model from policy training (via
frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence,
reducing GPU memory usage by 40\% and training time by 35\% compared to
conventional RLHF. Experiments across benchmarks show DVPO outperforms
efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in
performance.Summary
AI-Generated Summary