Ускорение обучения Нэша на основе обратной связи от человека с использованием метода Mirror Prox
Accelerating Nash Learning from Human Feedback via Mirror Prox
May 26, 2025
Авторы: Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard
cs.AI
Аннотация
Традиционное обучение с подкреплением на основе человеческих предпочтений (RLHF) часто опирается на модели вознаграждения, обычно предполагая структуры предпочтений, такие как модель Брэдли-Терри, которые могут не точно отражать сложность реальных человеческих предпочтений (например, интранзитивность). Обучение на основе человеческих предпочтений через равновесие Нэша (NLHF) предлагает более прямой подход, формулируя задачу как поиск равновесия Нэша в игре, определяемой этими предпочтениями. В данной работе мы представляем Nash Mirror Prox (Nash-MP) — онлайн-алгоритм NLHF, который использует схему оптимизации Mirror Prox для достижения быстрой и устойчивой сходимости к равновесию Нэша. Наш теоретический анализ показывает, что Nash-MP демонстрирует линейную сходимость на последней итерации к бета-регуляризованному равновесию Нэша. В частности, мы доказываем, что KL-дивергенция до оптимальной политики уменьшается со скоростью порядка (1+2beta)^{-N/2}, где N — количество запросов предпочтений. Мы также демонстрируем линейную сходимость на последней итерации для разрыва эксплуатируемости и равномерно для полунормы размаха логарифмов вероятностей, причем все эти скорости не зависят от размера пространства действий. Кроме того, мы предлагаем и анализируем приближенную версию Nash-MP, в которой проксимальные шаги оцениваются с использованием стохастических градиентов политики, что делает алгоритм более применимым на практике. Наконец, мы детализируем стратегию практической реализации для тонкой настройки больших языковых моделей и представляем эксперименты, демонстрирующие её конкурентоспособность и совместимость с существующими методами.
English
Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on
reward models, frequently assuming preference structures like the Bradley-Terry
model, which may not accurately capture the complexities of real human
preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF)
offers a more direct alternative by framing the problem as finding a Nash
equilibrium of a game defined by these preferences. In this work, we introduce
Nash Mirror Prox (Nash-MP), an online NLHF algorithm that leverages
the Mirror Prox optimization scheme to achieve fast and stable convergence to
the Nash equilibrium. Our theoretical analysis establishes that Nash-MP
exhibits last-iterate linear convergence towards the beta-regularized Nash
equilibrium. Specifically, we prove that the KL-divergence to the optimal
policy decreases at a rate of order (1+2beta)^{-N/2}, where N is a number
of preference queries. We further demonstrate last-iterate linear convergence
for the exploitability gap and uniformly for the span semi-norm of
log-probabilities, with all these rates being independent of the size of the
action space. Furthermore, we propose and analyze an approximate version of
Nash-MP where proximal steps are estimated using stochastic policy gradients,
making the algorithm closer to applications. Finally, we detail a practical
implementation strategy for fine-tuning large language models and present
experiments that demonstrate its competitive performance and compatibility with
existing methods.Summary
AI-Generated Summary