Hacia el Pensamiento Evaluativo: Optimización de Meta Políticas con Modelos de Recompensa en Evolución

Resumen

Los métodos de alineación basados en recompensas para modelos de lenguaje de gran escala (LLMs) enfrentan dos limitaciones clave: vulnerabilidad al "hackeo de recompensas", donde los modelos explotan fallas en la señal de recompensa; y dependencia de ingeniería de prompts frágil y laboriosa cuando los LLMs se utilizan como modelos de recompensa. Introducimos Meta Policy Optimization (MPO), un marco que aborda estos desafíos al integrar un modelo de meta-recompensa que refina dinámicamente el prompt del modelo de recompensa durante el entrenamiento. En MPO, el modelo de meta-recompensa monitorea el contexto de entrenamiento en evolución y ajusta continuamente el prompt del modelo de recompensa para mantener una alta alineación, proporcionando una señal de recompensa adaptativa que resiste la explotación por parte de la política. Este enfoque de meta-aprendizaje promueve una optimización de políticas más estable y reduce significativamente la necesidad de diseño manual de prompts de recompensa. Además, logra un rendimiento comparable o superior al de modelos guiados por prompts de recompensa extensamente diseñados a mano. También demostramos que MPO mantiene su eficacia en diversas tareas, como respuesta a preguntas y razonamiento matemático, sin requerir diseños de recompensa especializados. Más allá del RLAIF estándar, la formulación de meta-aprendizaje de MPO es fácilmente extensible a marcos de alineación de mayor nivel. En general, este método aborda desafíos teóricos y prácticos en la alineación basada en recompensas mediante RL para LLMs, allanando el camino para estrategias de alineación más robustas y adaptables. El código y los modelos se compartirán públicamente.

English

Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.

Hacia el Pensamiento Evaluativo: Optimización de Meta Políticas con Modelos de Recompensa en Evolución

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

Resumen

Support