ChatPaper.aiChatPaper

Verso un Pensiero Valutativo: Ottimizzazione Meta-Politica con Modelli di Ricompensa in Evoluzione

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

April 28, 2025
Autori: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI

Abstract

I metodi di allineamento basati su ricompensa per i grandi modelli linguistici (LLM) affrontano due limitazioni chiave: la vulnerabilità al reward hacking, in cui i modelli sfruttano difetti nel segnale di ricompensa; e la dipendenza da un'ingegneria dei prompt fragile e laboriosa quando gli LLM vengono utilizzati come modelli di ricompensa. Introduciamo il Meta Policy Optimization (MPO), un framework che affronta queste sfide integrando un meta-modello di ricompensa che affina dinamicamente il prompt del modello di ricompensa durante l'addestramento. Nell'MPO, il meta-modello di ricompensa monitora il contesto di addestramento in evoluzione e regola continuamente il prompt del modello di ricompensa per mantenere un elevato allineamento, fornendo un segnale di ricompensa adattivo che resiste allo sfruttamento da parte della politica. Questo approccio di meta-apprendimento promuove un'ottimizzazione della politica più stabile e riduce notevolmente la necessità di progettazione manuale dei prompt di ricompensa. Produce prestazioni pari o superiori a quelle dei modelli guidati da prompt di ricompensa ampiamente elaborati a mano. Inoltre, dimostriamo che l'MPO mantiene la sua efficacia in una vasta gamma di compiti, come il rispondere a domande e il ragionamento matematico, senza richiedere progettazioni specializzate delle ricompense. Oltre al classico RLAIF, la formulazione di meta-apprendimento dell'MPO è facilmente estendibile a framework di allineamento di livello superiore. Nel complesso, questo metodo affronta le sfide teoriche e pratiche nell'allineamento RL basato su ricompensa per gli LLM, aprendo la strada a strategie di allineamento più robuste e adattabili. Il codice e i modelli saranno condivisi pubblicamente.
English
Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.

Summary

AI-Generated Summary

PDF186April 30, 2025