Hacia el Pensamiento Evaluativo: Optimización de Meta Políticas con Modelos de Recompensa en Evolución
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
April 28, 2025
Autores: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI
Resumen
Los métodos de alineación basados en recompensas para modelos de lenguaje de gran escala (LLMs) enfrentan dos limitaciones clave: vulnerabilidad al "hackeo de recompensas", donde los modelos explotan fallas en la señal de recompensa; y dependencia de ingeniería de prompts frágil y laboriosa cuando los LLMs se utilizan como modelos de recompensa. Introducimos Meta Policy Optimization (MPO), un marco que aborda estos desafíos al integrar un modelo de meta-recompensa que refina dinámicamente el prompt del modelo de recompensa durante el entrenamiento. En MPO, el modelo de meta-recompensa monitorea el contexto de entrenamiento en evolución y ajusta continuamente el prompt del modelo de recompensa para mantener una alta alineación, proporcionando una señal de recompensa adaptativa que resiste la explotación por parte de la política. Este enfoque de meta-aprendizaje promueve una optimización de políticas más estable y reduce significativamente la necesidad de diseño manual de prompts de recompensa. Además, logra un rendimiento comparable o superior al de modelos guiados por prompts de recompensa extensamente diseñados a mano. También demostramos que MPO mantiene su eficacia en diversas tareas, como respuesta a preguntas y razonamiento matemático, sin requerir diseños de recompensa especializados. Más allá del RLAIF estándar, la formulación de meta-aprendizaje de MPO es fácilmente extensible a marcos de alineación de mayor nivel. En general, este método aborda desafíos teóricos y prácticos en la alineación basada en recompensas mediante RL para LLMs, allanando el camino para estrategias de alineación más robustas y adaptables. El código y los modelos se compartirán públicamente.
English
Reward-based alignment methods for large language models (LLMs) face two key
limitations: vulnerability to reward hacking, where models exploit flaws in the
reward signal; and reliance on brittle, labor-intensive prompt engineering when
LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a
framework that addresses these challenges by integrating a meta-reward model
that dynamically refines the reward model's prompt throughout training. In MPO,
the meta-reward model monitors the evolving training context and continuously
adjusts the reward model's prompt to maintain high alignment, providing an
adaptive reward signal that resists exploitation by the policy. This
meta-learning approach promotes a more stable policy optimization, and greatly
reduces the need for manual reward prompt design. It yields performance on par
with or better than models guided by extensively hand-crafted reward prompts.
Furthermore, we show that MPO maintains its effectiveness across diverse tasks,
such as question answering and mathematical reasoning, without requiring
specialized reward designs. Beyond standard RLAIF, MPO's meta-learning
formulation is readily extensible to higher-level alignment frameworks.
Overall, this method addresses theoretical and practical challenges in
reward-based RL alignment for LLMs, paving the way for more robust and
adaptable alignment strategies. The code and models will be publicly shared.Summary
AI-Generated Summary