Vers une pensée évaluative : Optimisation de méta-politiques avec des modèles de récompense évolutifs

papers.abstract

Les méthodes d'alignement basées sur les récompenses pour les grands modèles de langage (LLMs) rencontrent deux limitations majeures : une vulnérabilité au piratage des récompenses, où les modèles exploitent les failles du signal de récompense ; et une dépendance à l'ingénierie de prompts fragile et laborieuse lorsque les LLMs sont utilisés comme modèles de récompense. Nous introduisons l'Optimisation de Politique Méta (MPO), un cadre qui aborde ces défis en intégrant un modèle méta-récompense qui affine dynamiquement le prompt du modèle de récompense tout au long de l'entraînement. Dans MPO, le modèle méta-récompense surveille le contexte d'entraînement en évolution et ajuste continuellement le prompt du modèle de récompense pour maintenir un alignement élevé, fournissant ainsi un signal de récompense adaptatif résistant à l'exploitation par la politique. Cette approche de méta-apprentissage favorise une optimisation de politique plus stable et réduit considérablement le besoin de conception manuelle des prompts de récompense. Elle offre des performances comparables ou supérieures à celles des modèles guidés par des prompts de récompense soigneusement élaborés. De plus, nous montrons que MPO maintient son efficacité sur diverses tâches, telles que la réponse à des questions et le raisonnement mathématique, sans nécessiter de conceptions de récompense spécialisées. Au-delà du RLAIF standard, la formulation de méta-apprentissage de MPO est facilement extensible à des cadres d'alignement de niveau supérieur. Globalement, cette méthode aborde les défis théoriques et pratiques de l'alignement RL basé sur les récompenses pour les LLMs, ouvrant la voie à des stratégies d'alignement plus robustes et adaptables. Le code et les modèles seront partagés publiquement.

English

Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.

Vers une pensée évaluative : Optimisation de méta-politiques avec des modèles de récompense évolutifs

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

papers.abstract

Support