Verso un Pensiero Valutativo: Ottimizzazione Meta-Politica con Modelli di Ricompensa in Evoluzione
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
April 28, 2025
Autori: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI
Abstract
I metodi di allineamento basati su ricompensa per i grandi modelli linguistici (LLM) affrontano due limitazioni chiave: la vulnerabilità al reward hacking, in cui i modelli sfruttano difetti nel segnale di ricompensa; e la dipendenza da un'ingegneria dei prompt fragile e laboriosa quando gli LLM vengono utilizzati come modelli di ricompensa. Introduciamo il Meta Policy Optimization (MPO), un framework che affronta queste sfide integrando un meta-modello di ricompensa che affina dinamicamente il prompt del modello di ricompensa durante l'addestramento. Nell'MPO, il meta-modello di ricompensa monitora il contesto di addestramento in evoluzione e regola continuamente il prompt del modello di ricompensa per mantenere un elevato allineamento, fornendo un segnale di ricompensa adattivo che resiste allo sfruttamento da parte della politica. Questo approccio di meta-apprendimento promuove un'ottimizzazione della politica più stabile e riduce notevolmente la necessità di progettazione manuale dei prompt di ricompensa. Produce prestazioni pari o superiori a quelle dei modelli guidati da prompt di ricompensa ampiamente elaborati a mano. Inoltre, dimostriamo che l'MPO mantiene la sua efficacia in una vasta gamma di compiti, come il rispondere a domande e il ragionamento matematico, senza richiedere progettazioni specializzate delle ricompense. Oltre al classico RLAIF, la formulazione di meta-apprendimento dell'MPO è facilmente estendibile a framework di allineamento di livello superiore. Nel complesso, questo metodo affronta le sfide teoriche e pratiche nell'allineamento RL basato su ricompensa per gli LLM, aprendo la strada a strategie di allineamento più robuste e adattabili. Il codice e i modelli saranno condivisi pubblicamente.
English
Reward-based alignment methods for large language models (LLMs) face two key
limitations: vulnerability to reward hacking, where models exploit flaws in the
reward signal; and reliance on brittle, labor-intensive prompt engineering when
LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a
framework that addresses these challenges by integrating a meta-reward model
that dynamically refines the reward model's prompt throughout training. In MPO,
the meta-reward model monitors the evolving training context and continuously
adjusts the reward model's prompt to maintain high alignment, providing an
adaptive reward signal that resists exploitation by the policy. This
meta-learning approach promotes a more stable policy optimization, and greatly
reduces the need for manual reward prompt design. It yields performance on par
with or better than models guided by extensively hand-crafted reward prompts.
Furthermore, we show that MPO maintains its effectiveness across diverse tasks,
such as question answering and mathematical reasoning, without requiring
specialized reward designs. Beyond standard RLAIF, MPO's meta-learning
formulation is readily extensible to higher-level alignment frameworks.
Overall, this method addresses theoretical and practical challenges in
reward-based RL alignment for LLMs, paving the way for more robust and
adaptable alignment strategies. The code and models will be publicly shared.Summary
AI-Generated Summary