Hin zu evaluativem Denken: Meta Policy Optimization mit sich entwickelnden Belohnungsmodellen
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
April 28, 2025
Autoren: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI
Zusammenfassung
Belohnungsbasierte Alignment-Methoden für große Sprachmodelle (LLMs) stehen vor zwei zentralen Herausforderungen: Anfälligkeit für Reward Hacking, bei dem Modelle Schwächen im Belohnungssignal ausnutzen; und die Abhängigkeit von fragiler, arbeitsintensiver Prompt-Engineering, wenn LLMs als Belohnungsmodelle eingesetzt werden. Wir stellen Meta Policy Optimization (MPO) vor, ein Framework, das diese Probleme durch die Integration eines Meta-Belohnungsmodells adressiert, das den Prompt des Belohnungsmodells während des Trainings dynamisch verfeinert. In MPO überwacht das Meta-Belohnungsmodell den sich entwickelnden Trainingskontext und passt kontinuierlich den Prompt des Belohnungsmodells an, um eine hohe Alignment-Qualität aufrechtzuerhalten. Dies liefert ein adaptives Belohnungssignal, das einer Ausnutzung durch die Policy widersteht. Dieser Meta-Learning-Ansatz fördert eine stabilere Policy-Optimierung und reduziert den Bedarf an manuellem Design von Belohnungs-Prompts erheblich. Es erzielt eine Leistung, die mit oder besser ist als Modelle, die durch aufwendig handgefertigte Belohnungs-Prompts gesteuert werden. Darüber hinaus zeigen wir, dass MPO seine Wirksamkeit über verschiedene Aufgaben hinweg beibehält, wie z. B. Fragebeantwortung und mathematisches Denken, ohne spezialisierte Belohnungsdesigns zu benötigen. Über den Standard-RLAIF hinaus ist die Meta-Learning-Formulierung von MPO leicht auf höhere Alignment-Frameworks erweiterbar. Insgesamt adressiert diese Methode theoretische und praktische Herausforderungen im belohnungsbasierten RL-Alignment für LLMs und ebnet den Weg für robustere und anpassungsfähigere Alignment-Strategien. Der Code und die Modelle werden öffentlich zugänglich gemacht.
English
Reward-based alignment methods for large language models (LLMs) face two key
limitations: vulnerability to reward hacking, where models exploit flaws in the
reward signal; and reliance on brittle, labor-intensive prompt engineering when
LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a
framework that addresses these challenges by integrating a meta-reward model
that dynamically refines the reward model's prompt throughout training. In MPO,
the meta-reward model monitors the evolving training context and continuously
adjusts the reward model's prompt to maintain high alignment, providing an
adaptive reward signal that resists exploitation by the policy. This
meta-learning approach promotes a more stable policy optimization, and greatly
reduces the need for manual reward prompt design. It yields performance on par
with or better than models guided by extensively hand-crafted reward prompts.
Furthermore, we show that MPO maintains its effectiveness across diverse tasks,
such as question answering and mathematical reasoning, without requiring
specialized reward designs. Beyond standard RLAIF, MPO's meta-learning
formulation is readily extensible to higher-level alignment frameworks.
Overall, this method addresses theoretical and practical challenges in
reward-based RL alignment for LLMs, paving the way for more robust and
adaptable alignment strategies. The code and models will be publicly shared.Summary
AI-Generated Summary