Ágil e Eficiente: Otimização de Política de Valor Desacoplada com Orientação Global de Valor
Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance
February 24, 2025
Autores: Chenghua Huang, Lu Wang, Fangkai Yang, Pu Zhao, Zhixu Li, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Resumo
A Otimização de Política Próxima (PPO) baseada em Aprendizado por Reforço a partir de Feedback Humano (RLHF) é essencial para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. Requer o treinamento conjunto de um ator e um crítico com um modelo de recompensa pré-treinado e fixo para orientação. Esse método aumenta a complexidade computacional e a instabilidade devido à interdependência entre ator e crítico. Além disso, o PPO não tem acesso às recompensas verdadeiras do ambiente em tarefas de LLM, limitando sua adaptabilidade. Nessas condições, o pré-treinamento de um modelo de valor ou um modelo de recompensa se torna equivalente, pois ambos fornecem sinais de supervisão fixos sem novos feedbacks de verdade absoluta. Para lidar com essas questões, propomos a Otimização de Política de Valor Desacoplada (DVPO), um arcabouço enxuto que substitui a modelagem de recompensa tradicional por um modelo de valor global pré-treinado (GVM). O GVM é condicionado em trajetórias de política e prevê estimativas de retorno ao longo dos tokens. Ao desacoplar o modelo de valor do treinamento de política (por meio de objetivos de RL conduzidos por GVM congelado), o DVPO elimina a interdependência entre ator e crítico, reduzindo o uso de memória da GPU em 40% e o tempo de treinamento em 35% em comparação com RLHF convencional. Experimentos em diversos benchmarks mostram que o DVPO supera métodos eficientes de RLHF (por exemplo, DPO) enquanto se equipara ao PPO de ponta em desempenho.
English
Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human
Feedback (RLHF) is essential for aligning large language models (LLMs) with
human preferences. It requires joint training of an actor and critic with a
pretrained, fixed reward model for guidance. This approach increases
computational complexity and instability due to actor-critic interdependence.
Additionally, PPO lacks access to true environment rewards in LLM tasks,
limiting its adaptability. Under such conditions, pretraining a value model or
a reward model becomes equivalent, as both provide fixed supervisory signals
without new ground-truth feedback. To address these issues, we propose
Decoupled Value Policy Optimization (DVPO), a lean framework that
replaces traditional reward modeling with a pretrained global value model
(GVM). The GVM is conditioned on policy trajectories and predicts token-level
return-to-go estimates. By decoupling value model from policy training (via
frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence,
reducing GPU memory usage by 40\% and training time by 35\% compared to
conventional RLHF. Experiments across benchmarks show DVPO outperforms
efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in
performance.Summary
AI-Generated Summary