ChatPaper.aiChatPaper

Slank en Efficiënt: Ontkoppelde Waardebeleidsoptimalisatie met Globale Waardebegeleiding

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

February 24, 2025
Auteurs: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Samenvatting

Proximal Policy Optimization (PPO)-gebaseerd Versterkend Leren van Menselijke Feedback (RLHF) is essentieel voor het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Het vereist gezamenlijke training van een acteur en criticus met een voorgeleerd, vast beloningsmodel voor begeleiding. Deze benadering verhoogt de computationele complexiteit en instabiliteit als gevolg van de onderlinge afhankelijkheid van acteur en criticus. Bovendien heeft PPO geen toegang tot echte omgevingsbeloningen bij LLM-taken, wat de aanpasbaarheid beperkt. Onder dergelijke omstandigheden komt het voortrainen van een waarde- of beloningsmodel op hetzelfde neer, aangezien beide vaste toezichtsignalen bieden zonder nieuwe feedback van de grond waarheid. Om deze problemen aan te pakken, stellen we Decoupled Value Policy Optimization (DVPO) voor, een slank raamwerk dat traditionele beloningsmodellering vervangt door een voorgeleerd mondiaal waarde-model (GVM). De GVM is geconditioneerd op beleidstrajecten en voorspelt schattingen van tokenniveau-return-to-go. Door het waarde-model te ontkoppelen van de beleidstraining (via bevroren GVM-gestuurde RL-doelstellingen), elimineert DVPO de onderlinge afhankelijkheid van acteur en criticus, waardoor het GPU-geheugengebruik met 40% wordt verminderd en de trainingsduur met 35% ten opzichte van conventionele RLHF. Experimenten op benchmarks tonen aan dat DVPO efficiënte RLHF-methoden (bijv. DPO) overtreft en tegelijkertijd presteert op het niveau van state-of-the-art PPO.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Summary

AI-Generated Summary

PDF102February 28, 2025