Rumo ao Pensamento Avaliativo: Otimização de Meta Políticas com Modelos de Recompensa em Evolução
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
April 28, 2025
Autores: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI
Resumo
Métodos de alinhamento baseados em recompensa para grandes modelos de linguagem (LLMs) enfrentam duas limitações principais: vulnerabilidade ao "hacking de recompensa", onde os modelos exploram falhas no sinal de recompensa; e dependência de engenharia de prompts frágil e intensiva em mão de obra quando os LLMs são usados como modelos de recompensa. Introduzimos o Meta Policy Optimization (MPO), um framework que aborda esses desafios ao integrar um meta-modelo de recompensa que refina dinamicamente o prompt do modelo de recompensa durante o treinamento. No MPO, o meta-modelo de recompensa monitora o contexto de treinamento em evolução e ajusta continuamente o prompt do modelo de recompensa para manter um alto alinhamento, fornecendo um sinal de recompensa adaptativo que resiste à exploração pela política. Essa abordagem de meta-aprendizado promove uma otimização de política mais estável e reduz significativamente a necessidade de design manual de prompts de recompensa. Ela produz desempenho igual ou superior ao de modelos guiados por prompts de recompensa extensivamente elaborados manualmente. Além disso, mostramos que o MPO mantém sua eficácia em diversas tarefas, como resposta a perguntas e raciocínio matemático, sem exigir designs de recompensa especializados. Além do RLAIF padrão, a formulação de meta-aprendizado do MPO é facilmente extensível a frameworks de alinhamento de nível superior. No geral, esse método aborda desafios teóricos e práticos no alinhamento baseado em recompensa por RL para LLMs, abrindo caminho para estratégias de alinhamento mais robustas e adaptáveis. O código e os modelos serão compartilhados publicamente.
English
Reward-based alignment methods for large language models (LLMs) face two key
limitations: vulnerability to reward hacking, where models exploit flaws in the
reward signal; and reliance on brittle, labor-intensive prompt engineering when
LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a
framework that addresses these challenges by integrating a meta-reward model
that dynamically refines the reward model's prompt throughout training. In MPO,
the meta-reward model monitors the evolving training context and continuously
adjusts the reward model's prompt to maintain high alignment, providing an
adaptive reward signal that resists exploitation by the policy. This
meta-learning approach promotes a more stable policy optimization, and greatly
reduces the need for manual reward prompt design. It yields performance on par
with or better than models guided by extensively hand-crafted reward prompts.
Furthermore, we show that MPO maintains its effectiveness across diverse tasks,
such as question answering and mathematical reasoning, without requiring
specialized reward designs. Beyond standard RLAIF, MPO's meta-learning
formulation is readily extensible to higher-level alignment frameworks.
Overall, this method addresses theoretical and practical challenges in
reward-based RL alignment for LLMs, paving the way for more robust and
adaptable alignment strategies. The code and models will be publicly shared.Summary
AI-Generated Summary