ChatPaper.aiChatPaper

Naar evaluatief denken: Meta Policy Optimization met evoluerende beloningsmodellen

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

April 28, 2025
Auteurs: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI

Samenvatting

Beloningsgebaseerde uitlijningsmethoden voor grote taalmmodellen (LLMs) kampen met twee belangrijke beperkingen: kwetsbaarheid voor reward hacking, waarbij modellen misbruik maken van fouten in het beloningssignaal; en afhankelijkheid van broze, arbeidsintensieve prompt engineering wanneer LLMs worden gebruikt als beloningsmodellen. We introduceren Meta Policy Optimization (MPO), een raamwerk dat deze uitdagingen aanpakt door een meta-beloningsmodel te integreren dat de prompt van het beloningsmodel dynamisch verfijnt tijdens de training. In MPO houdt het meta-beloningsmodel de evoluerende trainingscontext in de gaten en past het continu de prompt van het beloningsmodel aan om een hoge uitlijning te behouden, waardoor een adaptief beloningssignaal ontstaat dat weerstand biedt tegen exploitatie door het beleid. Deze meta-leerbenadering bevordert een stabielere beleidsoptimalisatie en vermindert de noodzaak voor handmatig ontwerp van beloningsprompts aanzienlijk. Het levert prestaties die vergelijkbaar zijn met of beter dan modellen die worden geleid door uitgebreid handmatig gemaakte beloningsprompts. Bovendien tonen we aan dat MPO zijn effectiviteit behoudt over diverse taken, zoals vraagbeantwoording en wiskundig redeneren, zonder gespecialiseerde beloningsontwerpen te vereisen. Bovenop standaard RLAIF is de meta-leerformulering van MPO gemakkelijk uitbreidbaar naar hogere uitlijningsraamwerken. Over het algemeen lost deze methode theoretische en praktische uitdagingen op in beloningsgebaseerde RL-uitlijning voor LLMs, en opent het de weg voor robuustere en aanpasbaardere uitlijningsstrategieën. De code en modellen zullen openbaar worden gedeeld.
English
Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.

Summary

AI-Generated Summary

PDF196April 30, 2025