Преобразование и комбинирование вознаграждений для согласования больших языковых моделей
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Авторы: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Аннотация
Распространённый подход для согласования языковых моделей с человеческими предпочтениями заключается в том, чтобы сначала обучить модель вознаграждения на данных о предпочтениях, а затем использовать эту модель для обновления языковой модели. Мы исследуем две тесно связанные проблемы, возникающие в этом подходе. Во-первых, любое монотонное преобразование модели вознаграждения сохраняет ранжирование предпочтений; существует ли выбор, который является «лучшим» по сравнению с другими? Во-вторых, часто возникает необходимость согласовать языковые модели с несколькими свойствами: как следует комбинировать несколько моделей вознаграждения? Используя вероятностную интерпретацию процедуры согласования, мы определяем естественный выбор преобразования для (распространённого случая) вознаграждений, обученных на основе моделей предпочтений Брэдли-Терри. Это преобразование обладает двумя важными свойствами. Во-первых, оно акцентирует внимание на улучшении плохо работающих выходных данных, а не тех, которые уже получают высокие оценки. Это смягчает как недообучение (когда некоторые запросы не улучшаются), так и взлом вознаграждения (когда модель учится эксплуатировать некорректную спецификацию модели вознаграждения). Во-вторых, оно позволяет принципиально агрегировать вознаграждения, связывая суммирование с логической конъюнкцией: сумма преобразованных вознаграждений соответствует вероятности того, что выходные данные являются «хорошими» по всем измеряемым свойствам, в смысле, который мы уточняем. Эксперименты по согласованию языковых моделей, чтобы они были одновременно полезными и безопасными, с использованием RLHF показывают значительные улучшения по сравнению с базовым (непреобразованным) подходом.
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.