ChatPaper.aiChatPaper

간결하고 효율적: 전역 가치 지도를 활용한 분리형 가치 정책 최적화

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

February 24, 2025
저자: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)에서 근위 정책 최적화(PPO) 기반 접근법은 대규모 언어 모델(LLM)을 인간의 선호에 맞추는 데 필수적입니다. 이 방법은 사전 학습된 고정 보상 모델을 지침으로 하여 행위자(actor)와 평가자(critic)를 함께 훈련시키는 것을 요구합니다. 이러한 접근법은 행위자와 평가자의 상호 의존성으로 인해 계산 복잡성과 불안정성을 증가시킵니다. 또한, PPO는 LLM 작업에서 실제 환경 보상에 접근할 수 없어 적응성이 제한됩니다. 이러한 조건 하에서, 가치 모델이나 보상 모델을 사전 학습하는 것은 동등한 효과를 가지며, 둘 다 새로운 실측 피드백 없이 고정된 지도 신호를 제공합니다. 이러한 문제를 해결하기 위해, 우리는 전통적인 보상 모델링을 사전 학습된 전역 가치 모델(GVM)로 대체하는 간결한 프레임워크인 분리된 가치 정책 최적화(DVPO)를 제안합니다. GVM은 정책 궤적에 조건화되어 토큰 수준의 미래 반환값(return-to-go)을 예측합니다. 가치 모델을 정책 훈련에서 분리함으로써(고정된 GVM 기반 RL 목표를 통해), DVPO는 행위자와 평가자의 상호 의존성을 제거하여 GPU 메모리 사용량을 40%, 훈련 시간을 35% 줄입니다. 다양한 벤치마크에서의 실험 결과, DVPO는 효율적인 RLHF 방법(예: DPO)을 능가하면서도 최신 PPO와 동등한 성능을 보여줍니다.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Summary

AI-Generated Summary

PDF102February 28, 2025