ChatPaper.aiChatPaper

К развитию оценочного мышления: Мета-оптимизация политик с эволюционирующими моделями вознаграждения

Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models

April 28, 2025
Авторы: Zae Myung Kim, Chanwoo Park, Vipul Raheja, Dongyeop Kang
cs.AI

Аннотация

Методы выравнивания крупных языковых моделей (LLM), основанные на вознаграждении, сталкиваются с двумя ключевыми ограничениями: уязвимостью к "взлому вознаграждения", когда модели эксплуатируют недостатки в сигнале вознаграждения, и зависимостью от хрупкого, трудоемкого проектирования промптов, когда LLM используются в качестве моделей вознаграждения. Мы представляем Meta Policy Optimization (MPO) — фреймворк, который решает эти проблемы за счет интеграции мета-модели вознаграждения, динамически уточняющей промпт модели вознаграждения в процессе обучения. В MPO мета-модель вознаграждения отслеживает изменяющийся контекст обучения и непрерывно корректирует промпт модели вознаграждения для поддержания высокого уровня выравнивания, предоставляя адаптивный сигнал вознаграждения, устойчивый к эксплуатации со стороны политики. Этот мета-обучающий подход способствует более стабильной оптимизации политики и значительно снижает необходимость ручного проектирования промптов вознаграждения. Он демонстрирует производительность на уровне или выше моделей, управляемых тщательно разработанными промптами вознаграждения. Более того, мы показываем, что MPO сохраняет свою эффективность в различных задачах, таких как ответы на вопросы и математические рассуждения, без необходимости специализированного проектирования вознаграждений. Выходя за рамки стандартного RLAIF, мета-обучающая формулировка MPO легко расширяется на более высокоуровневые фреймворки выравнивания. В целом, этот метод решает теоретические и практические проблемы выравнивания LLM, основанного на вознаграждении, прокладывая путь к более устойчивым и адаптируемым стратегиям выравнивания. Код и модели будут публично доступны.
English
Reward-based alignment methods for large language models (LLMs) face two key limitations: vulnerability to reward hacking, where models exploit flaws in the reward signal; and reliance on brittle, labor-intensive prompt engineering when LLMs are used as reward models. We introduce Meta Policy Optimization (MPO), a framework that addresses these challenges by integrating a meta-reward model that dynamically refines the reward model's prompt throughout training. In MPO, the meta-reward model monitors the evolving training context and continuously adjusts the reward model's prompt to maintain high alignment, providing an adaptive reward signal that resists exploitation by the policy. This meta-learning approach promotes a more stable policy optimization, and greatly reduces the need for manual reward prompt design. It yields performance on par with or better than models guided by extensively hand-crafted reward prompts. Furthermore, we show that MPO maintains its effectiveness across diverse tasks, such as question answering and mathematical reasoning, without requiring specialized reward designs. Beyond standard RLAIF, MPO's meta-learning formulation is readily extensible to higher-level alignment frameworks. Overall, this method addresses theoretical and practical challenges in reward-based RL alignment for LLMs, paving the way for more robust and adaptable alignment strategies. The code and models will be publicly shared.

Summary

AI-Generated Summary

PDF156April 30, 2025