Итеративная оптимизация политики Нэша: Выравнивание LLM с общими предпочтениями с помощью обучения без сожалений.
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Авторы: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Аннотация
Обучение с подкреплением с обратной связью от человека (RLHF) достигло большого успеха в выравнивании больших языковых моделей (LLM) с человеческими предпочтениями. Преобладающие подходы RLHF основаны на вознаграждениях и следуют предположению модели Брэдли-Терри (BT), которое может не полностью учитывать сложность человеческих предпочтений. В данной статье мы исследуем RLHF в рамках общей предпочтительной модели и подходим к ней с игровой точки зрения. Конкретно, мы формулируем проблему как игру двух игроков и предлагаем новый алгоритм, итеративную оптимизацию политики Нэша (INPO). Основная идея заключается в том, чтобы позволить политике играть против самой себя через обучение без сожалений, тем самым приближаясь к политике Нэша. В отличие от предыдущих методов, INPO обходит необходимость оценки ожидаемой доли победы для отдельных ответов, что typично влечет за собой высокие вычислительные или аннотационные издержки. Вместо этого мы вводим новую целевую функцию потерь, которая непосредственно минимизируется на наборе предпочтений. Мы предоставляем теоретический анализ нашего подхода и демонстрируем его эффективность через эксперименты на различных репрезентативных бенчмарках. С моделью SFT на основе LLaMA-3-8B, INPO достигает доли победы с контролем длины в 41.5% на AlpacaEval 2.0 и 38.3% на Arena-Hard, показывая существенное улучшение по сравнению с современным итеративным алгоритмом [Донг и др., 2024] на основе модели BT. Кроме того, наше исследование абляции подчеркивает преимущества включения регуляризации KL для контроля длины ответа.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.Summary
AI-Generated Summary