Otimização Direta de Nash: Ensinando Modelos de Linguagem a se Aprimorarem com Preferências Gerais
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences
April 4, 2024
Autores: Corby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie
cs.AI
Resumo
Este artigo estuda o pós-treinamento de grandes modelos de linguagem (LLMs) utilizando feedback de preferência de um oráculo poderoso para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para o pós-treinamento de LLMs envolve Aprendizado por Reforço com Feedback Humano (RLHF), que tradicionalmente separa a aprendizagem de recompensa e a subsequente otimização de política. No entanto, essa abordagem de maximização de recompensa é limitada pela natureza de recompensas "ponto a ponto" (como o modelo de Bradley-Terry), que falha em expressar relações de preferência complexas, intransitivas ou cíclicas. Embora avanços no RLHF mostrem que a aprendizagem de recompensa e a otimização de política podem ser combinadas em um único objetivo contrastivo para estabilidade, eles ainda permanecem vinculados ao framework de maximização de recompensa. Recentemente, uma nova onda de pesquisa contorna as presunções de maximização de recompensa em favor da otimização direta sobre preferências "par a par" ou gerais. Neste artigo, introduzimos a Otimização Direta de Nash (DNO), um algoritmo comprovável e escalável que combina a simplicidade e estabilidade do aprendizado contrastivo com a generalidade teórica da otimização de preferências gerais. Como o DNO é um algoritmo on-policy em lotes que utiliza um objetivo baseado em regressão, sua implementação é direta e eficiente. Além disso, o DNO apresenta melhoria monotônica ao longo das iterações, o que o ajuda a melhorar mesmo sobre um professor forte (como o GPT-4). Em nossos experimentos, um modelo Orca-2.5 de 7 bilhões de parâmetros alinhado pelo DNO alcança a taxa de vitória state-of-the-art de 33% contra o GPT-4-Turbo no AlpacaEval 2.0 (mesmo após o controle do comprimento da resposta), um ganho absoluto de 26% (7% para 33%) sobre o modelo inicial. Ele supera modelos com muito mais parâmetros, incluindo Mistral Large, Self-Rewarding LM (70 bilhões de parâmetros) e versões mais antigas do GPT-4.
English
This paper studies post-training large language models (LLMs) using
preference feedback from a powerful oracle to help a model iteratively improve
over itself. The typical approach for post-training LLMs involves Reinforcement
Learning from Human Feedback (RLHF), which traditionally separates reward
learning and subsequent policy optimization. However, such a reward
maximization approach is limited by the nature of "point-wise" rewards (such as
Bradley-Terry model), which fails to express complex intransitive or cyclic
preference relations. While advances on RLHF show reward learning and policy
optimization can be merged into a single contrastive objective for stability,
they yet still remain tethered to the reward maximization framework. Recently,
a new wave of research sidesteps the reward maximization presumptions in favor
of directly optimizing over "pair-wise" or general preferences. In this paper,
we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm
that marries the simplicity and stability of contrastive learning with
theoretical generality from optimizing general preferences. Because DNO is a
batched on-policy algorithm using a regression-based objective, its
implementation is straightforward and efficient. Moreover, DNO enjoys monotonic
improvement across iterations that help it improve even over a strong teacher
(such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model
aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of
33% on AlpacaEval 2.0 (even after controlling for response length), an absolute
gain of 26% (7% to 33%) over the initializing model. It outperforms models with
far more parameters, including Mistral Large, Self-Rewarding LM (70B
parameters), and older versions of GPT-4.