Ágil e Eficiente: Otimização de Política de Valor Desacoplada com Orientação Global de Valor

Resumo

A Otimização de Política Próxima (PPO) baseada em Aprendizado por Reforço a partir de Feedback Humano (RLHF) é essencial para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. Requer o treinamento conjunto de um ator e um crítico com um modelo de recompensa pré-treinado e fixo para orientação. Esse método aumenta a complexidade computacional e a instabilidade devido à interdependência entre ator e crítico. Além disso, o PPO não tem acesso às recompensas verdadeiras do ambiente em tarefas de LLM, limitando sua adaptabilidade. Nessas condições, o pré-treinamento de um modelo de valor ou um modelo de recompensa se torna equivalente, pois ambos fornecem sinais de supervisão fixos sem novos feedbacks de verdade absoluta. Para lidar com essas questões, propomos a Otimização de Política de Valor Desacoplada (DVPO), um arcabouço enxuto que substitui a modelagem de recompensa tradicional por um modelo de valor global pré-treinado (GVM). O GVM é condicionado em trajetórias de política e prevê estimativas de retorno ao longo dos tokens. Ao desacoplar o modelo de valor do treinamento de política (por meio de objetivos de RL conduzidos por GVM congelado), o DVPO elimina a interdependência entre ator e crítico, reduzindo o uso de memória da GPU em 40% e o tempo de treinamento em 35% em comparação com RLHF convencional. Experimentos em diversos benchmarks mostram que o DVPO supera métodos eficientes de RLHF (por exemplo, DPO) enquanto se equipara ao PPO de ponta em desempenho.

English

Proximal Policy Optimization (PPO)-based Reinforcement Learning from Human Feedback (RLHF) is essential for aligning large language models (LLMs) with human preferences. It requires joint training of an actor and critic with a pretrained, fixed reward model for guidance. This approach increases computational complexity and instability due to actor-critic interdependence. Additionally, PPO lacks access to true environment rewards in LLM tasks, limiting its adaptability. Under such conditions, pretraining a value model or a reward model becomes equivalent, as both provide fixed supervisory signals without new ground-truth feedback. To address these issues, we propose Decoupled Value Policy Optimization (DVPO), a lean framework that replaces traditional reward modeling with a pretrained global value model (GVM). The GVM is conditioned on policy trajectories and predicts token-level return-to-go estimates. By decoupling value model from policy training (via frozen GVM-driven RL objectives), DVPO eliminates actor-critic interdependence, reducing GPU memory usage by 40\% and training time by 35\% compared to conventional RLHF. Experiments across benchmarks show DVPO outperforms efficient RLHF methods (e.g., DPO) while matching state-of-the-art PPO in performance.

Ágil e Eficiente: Otimização de Política de Valor Desacoplada com Orientação Global de Valor

Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance

Resumo

Support