for Scalable Reinforcement Learning Ottimizzazione della Politica a Valore Disaccoppiato con Guida del Valore Globale per un Apprendimento per Rinforzo Scalabile: Snello ed Efficace
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance
February 24, 2025
Autori: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Abstract
L'apprendimento per rinforzo basato su feedback umano (RLHF) con Proximal Policy Optimization (PPO) è essenziale per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Questo approccio richiede un addestramento congiunto di un attore e di un critico, guidati da un modello di ricompensa pre-addestrato e fisso. Tale metodologia aumenta la complessità computazionale e l'instabilità a causa dell'interdipendenza tra attore e critico. Inoltre, il PPO non ha accesso alle ricompense reali dell'ambiente nei compiti relativi ai LLM, limitandone l'adattabilità. In tali condizioni, pre-addestrare un modello di valore o un modello di ricompensa diventa equivalente, poiché entrambi forniscono segnali di supervisione fissi senza nuovi feedback di verità assoluta. Per affrontare questi problemi, proponiamo il Decoupled Value Policy Optimization (DVPO), un framework snello che sostituisce la tradizionale modellazione della ricompensa con un modello di valore globale (GVM) pre-addestrato. Il GVM è condizionato sulle traiettorie delle politiche e prevede stime di ritorno a livello di token. Decoppiando il modello di valore dall'addestramento delle politiche (tramite obiettivi di RL guidati da GVM congelato), il DVPO elimina l'interdipendenza tra attore e critico, riducendo l'uso della memoria GPU del 40% e il tempo di addestramento del 35% rispetto al RLHF convenzionale. Gli esperimenti condotti su vari benchmark dimostrano che il DVPO supera i metodi RLHF efficienti (ad esempio, DPO) eguagliando le prestazioni del PPO all'avanguardia.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human
Feedback (RLHF) is essential for aligning large language models (LLMs) with
human preferences. It requires joint training of an actor and critic with a
pretrained, fixed reward model for guidance. This approach increases
computational complexity and instability due to actor-critic interdependence.
Additionally, PPO lacks access to true environment rewards in LLM tasks,
limiting its adaptability. Under such conditions, pretraining a value model or
a reward model becomes equivalent, as both provide fixed supervisory signals
without new ground-truth feedback. To address these issues, we propose
Decoupled Value Policy Optimization (DVPO), a lean framework that
replaces traditional reward modeling with a pretrained global value model
(GVM). The GVM is conditioned on policy trajectories and predicts token-level
return-to-go estimates. By decoupling value model from policy training (via
frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence,
reducing GPU memory usage by 40\% and training time by 35\% compared to
conventional RLHF. Experiments across benchmarks show DVPO outperforms
efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in
performance.Summary
AI-Generated Summary