Обучение Нэша на основе человеческой обратной связи
Nash Learning from Human Feedback
December 1, 2023
Авторы: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI
Аннотация
Обучение с подкреплением на основе человеческих предпочтений (RLHF) стало основной парадигмой для согласования больших языковых моделей (LLM) с человеческими предпочтениями. Обычно RLHF включает начальный этап обучения модели вознаграждения на основе человеческих предпочтений, которые часто выражаются в виде выбора между парами текстов, сгенерированных предварительно обученной LLM. Затем политика LLM дорабатывается путем её оптимизации для максимизации вознаграждения с использованием алгоритма обучения с подкреплением. Однако ключевое ограничение современных моделей вознаграждения заключается в их неспособности полностью отразить сложность человеческих предпочтений и их зависимости от распределения выборки.
В данном исследовании мы предлагаем альтернативный подход для доработки LLM на основе парных человеческих предпочтений. Наш метод включает начальное обучение модели предпочтений, которая учитывает два входных текста при заданном промпте, а затем поиск политики, которая последовательно генерирует ответы, предпочитаемые по сравнению с ответами любой другой политики, что определяет равновесие Нэша для этой модели предпочтений. Мы называем этот подход обучением Нэша на основе человеческих предпочтений (NLHF).
В контексте табличного представления политики мы представляем новый алгоритмический метод Nash-MD, основанный на принципах зеркального спуска. Этот алгоритм генерирует последовательность политик, причем последняя итерация сходится к регуляризованному равновесию Нэша. Кроме того, мы исследуем параметрические представления политик и предлагаем алгоритмы градиентного спуска для архитектур глубокого обучения. Чтобы продемонстрировать эффективность нашего подхода, мы представляем результаты экспериментов по доработке LLM для задачи суммирования текста. Мы считаем, что NLHF предлагает перспективное направление для обучения предпочтениям и оптимизации политик, способное продвинуть область согласования LLM с человеческими предпочтениями.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main
paradigm for aligning large language models (LLMs) with human preferences.
Typically, RLHF involves the initial step of learning a reward model from human
feedback, often expressed as preferences between pairs of text generations
produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by
optimizing it to maximize the reward model through a reinforcement learning
algorithm. However, an inherent limitation of current reward models is their
inability to fully represent the richness of human preferences and their
dependency on the sampling distribution.
In this study, we introduce an alternative pipeline for the fine-tuning of
LLMs using pairwise human feedback. Our approach entails the initial learning
of a preference model, which is conditioned on two inputs given a prompt,
followed by the pursuit of a policy that consistently generates responses
preferred over those generated by any competing policy, thus defining the Nash
equilibrium of this preference model. We term this approach Nash learning from
human feedback (NLHF).
In the context of a tabular policy representation, we present a novel
algorithmic solution, Nash-MD, founded on the principles of mirror descent.
This algorithm produces a sequence of policies, with the last iteration
converging to the regularized Nash equilibrium. Additionally, we explore
parametric representations of policies and introduce gradient descent
algorithms for deep-learning architectures. To demonstrate the effectiveness of
our approach, we present experimental results involving the fine-tuning of a
LLM for a text summarization task. We believe NLHF offers a compelling avenue
for preference learning and policy optimization with the potential of advancing
the field of aligning LLMs with human preferences.