ChatPaper.aiChatPaper

Помощь или управление? Ансамбли моделей вознаграждения смягчают, но не устраняют проблему манипулирования вознаграждением

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

December 14, 2023
Авторы: Jacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant
cs.AI

Аннотация

Модели вознаграждения играют ключевую роль в согласовании приложений языковых моделей с человеческими предпочтениями. Однако такая настройка создает стимул для языковой модели эксплуатировать ошибки в модели вознаграждения для достижения высокой оценки вознаграждения — явление, часто называемое "взломом вознаграждения". Естественным способом смягчения этой проблемы является обучение ансамбля моделей вознаграждения, агрегирующего выходы моделей для получения более устойчивой оценки вознаграждения. Мы исследуем применение ансамблей вознаграждения для согласования как на этапе обучения (через обучение с подкреплением), так и на этапе вывода (через переранжирование). Во-первых, мы показываем, что модели вознаграждения недостаточно специфицированы: модели, которые демонстрируют схожую производительность в рамках обучающего распределения, могут давать сильно различающиеся оценки вознаграждения при использовании для согласования из-за сдвига распределения. Во-вторых, недостаточная спецификация приводит к переоптимизации, при которой согласование с одной моделью вознаграждения не улучшает оценку вознаграждения, измеренную другой моделью, обученной на тех же данных. В-третьих, использование ансамблей моделей вознаграждения смягчает проблему переоптимизации, причем ансамбли, различающиеся начальными значениями для предварительного обучения, обеспечивают лучшее обобщение, чем ансамбли, различающиеся только начальными значениями для тонкой настройки, и оба типа ансамблей превосходят отдельные модели вознаграждения. Однако даже ансамбли моделей с предварительным обучением не устраняют полностью взлом вознаграждения: мы демонстрируем несколько качественных примеров взлома вознаграждения, которые не устраняются ансамблированием, поскольку все модели в ансамбле демонстрируют схожие паттерны ошибок.
English
Reward models play a key role in aligning language model applications towards human preferences. However, this setup creates an incentive for the language model to exploit errors in the reward model to achieve high estimated reward, a phenomenon often termed reward hacking. A natural mitigation is to train an ensemble of reward models, aggregating over model outputs to obtain a more robust reward estimate. We explore the application of reward ensembles to alignment at both training time (through reinforcement learning) and inference time (through reranking). First, we show that reward models are underspecified: reward models that perform similarly in-distribution can yield very different rewards when used in alignment, due to distribution shift. Second, underspecification results in overoptimization, where alignment to one reward model does not improve reward as measured by another reward model trained on the same data. Third, overoptimization is mitigated by the use of reward ensembles, and ensembles that vary by their pretraining seeds lead to better generalization than ensembles that differ only by their fine-tuning seeds, with both outperforming individual reward models. However, even pretrain reward ensembles do not eliminate reward hacking: we show several qualitative reward hacking phenomena that are not mitigated by ensembling because all reward models in the ensemble exhibit similar error patterns.
PDF111December 15, 2024