Vers une pensée évaluative : Optimisation de méta-politiques avec des modèles de récompense évolutifs
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
April 28, 2025
Auteurs: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI
Résumé
Les méthodes d'alignement basées sur les récompenses pour les grands modèles de langage (LLMs) rencontrent deux limitations majeures : une vulnérabilité au piratage des récompenses, où les modèles exploitent les failles du signal de récompense ; et une dépendance à l'ingénierie de prompts fragile et laborieuse lorsque les LLMs sont utilisés comme modèles de récompense. Nous introduisons l'Optimisation de Politique Méta (MPO), un cadre qui aborde ces défis en intégrant un modèle méta-récompense qui affine dynamiquement le prompt du modèle de récompense tout au long de l'entraînement. Dans MPO, le modèle méta-récompense surveille le contexte d'entraînement en évolution et ajuste continuellement le prompt du modèle de récompense pour maintenir un alignement élevé, fournissant ainsi un signal de récompense adaptatif résistant à l'exploitation par la politique. Cette approche de méta-apprentissage favorise une optimisation de politique plus stable et réduit considérablement le besoin de conception manuelle des prompts de récompense. Elle offre des performances comparables ou supérieures à celles des modèles guidés par des prompts de récompense soigneusement élaborés. De plus, nous montrons que MPO maintient son efficacité sur diverses tâches, telles que la réponse à des questions et le raisonnement mathématique, sans nécessiter de conceptions de récompense spécialisées. Au-delà du RLAIF standard, la formulation de méta-apprentissage de MPO est facilement extensible à des cadres d'alignement de niveau supérieur. Globalement, cette méthode aborde les défis théoriques et pratiques de l'alignement RL basé sur les récompenses pour les LLMs, ouvrant la voie à des stratégies d'alignement plus robustes et adaptables. Le code et les modèles seront partagés publiquement.
English
Reward-based alignment methods for large language models (LLMs) face two key
limitations: vulnerability to reward hacking, where models exploit flaws in the
reward signal; and reliance on brittle, labor-intensive prompt engineering when
LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a
framework that addresses these challenges by integrating a meta-reward model
that dynamically refines the reward model's prompt throughout training. In MPO,
the meta-reward model monitors the evolving training context and continuously
adjusts the reward model's prompt to maintain high alignment, providing an
adaptive reward signal that resists exploitation by the policy. This
meta-learning approach promotes a more stable policy optimization, and greatly
reduces the need for manual reward prompt design. It yields performance on par
with or better than models guided by extensively hand-crafted reward prompts.
Furthermore, we show that MPO maintains its effectiveness across diverse tasks,
such as question answering and mathematical reasoning, without requiring
specialized reward designs. Beyond standard RLAIF, MPO's meta-learning
formulation is readily extensible to higher-level alignment frameworks.
Overall, this method addresses theoretical and practical challenges in
reward-based RL alignment for LLMs, paving the way for more robust and
adaptable alignment strategies. The code and models will be publicly shared.Summary
AI-Generated Summary