ChatPaper.aiChatPaper

Schlank und Effizient: Entkoppelte Wertpolitikoptimierung mit globaler Wertführung

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

February 24, 2025
Autoren: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Zusammenfassung

Proximale Policy-Optimierung (PPO)-basiertes Verstärkungslernen aus menschlichem Feedback (RLHF) ist entscheidend für die Ausrichtung großer Sprachmodelle (LLMs) mit menschlichen Präferenzen. Es erfordert das gemeinsame Training eines Akteurs und eines Kritikers mit einem vorab trainierten, festen Belohnungsmodell zur Orientierung. Dieser Ansatz erhöht die Rechenkomplexität und Instabilität aufgrund der Wechselbeziehung zwischen Akteur und Kritiker. Darüber hinaus hat PPO keinen Zugriff auf echte Umgebungsbelohnungen bei LLM-Aufgaben, was seine Anpassungsfähigkeit einschränkt. Unter solchen Bedingungen wird das Vortrainieren eines Wertmodells oder eines Belohnungsmodells äquivalent, da beide feste überwachende Signale ohne neues Feedback aus der Ground-Truth liefern. Um diese Probleme zu lösen, schlagen wir Decoupled Value Policy Optimization (DVPO) vor, ein schlankes Framework, das die herkömmliche Belohnungsmodellierung durch ein vortrainiertes globales Wertmodell (GVM) ersetzt. Das GVM ist abhängig von Richtlinientrajektorien und sagt Token-Ebene Rückkehr-zum-Ziel-Schätzungen voraus. Durch die Entkopplung des Wertmodells vom Richtlinientraining (über eingefrorene GVM-gesteuerte RL-Ziele) beseitigt DVPO die Wechselbeziehung zwischen Akteur und Kritiker, wodurch der GPU-Speicherverbrauch um 40\% und die Trainingszeit um 35\% im Vergleich zu herkömmlichem RLHF reduziert wird. Experimente über Benchmarks zeigen, dass DVPO effiziente RLHF-Methoden (z. B. DPO) übertrifft und gleichzeitig die Leistung des State-of-the-Art PPO erreicht.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Summary

AI-Generated Summary

PDF102February 28, 2025