Otimização Direta de Nash: Ensinando Modelos de Linguagem a se Aprimorarem com Preferências Gerais

Resumo

Este artigo estuda o pós-treinamento de grandes modelos de linguagem (LLMs) utilizando feedback de preferência de um oráculo poderoso para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para o pós-treinamento de LLMs envolve Aprendizado por Reforço com Feedback Humano (RLHF), que tradicionalmente separa a aprendizagem de recompensa e a subsequente otimização de política. No entanto, essa abordagem de maximização de recompensa é limitada pela natureza de recompensas "ponto a ponto" (como o modelo de Bradley-Terry), que falha em expressar relações de preferência complexas, intransitivas ou cíclicas. Embora avanços no RLHF mostrem que a aprendizagem de recompensa e a otimização de política podem ser combinadas em um único objetivo contrastivo para estabilidade, eles ainda permanecem vinculados ao framework de maximização de recompensa. Recentemente, uma nova onda de pesquisa contorna as presunções de maximização de recompensa em favor da otimização direta sobre preferências "par a par" ou gerais. Neste artigo, introduzimos a Otimização Direta de Nash (DNO), um algoritmo comprovável e escalável que combina a simplicidade e estabilidade do aprendizado contrastivo com a generalidade teórica da otimização de preferências gerais. Como o DNO é um algoritmo on-policy em lotes que utiliza um objetivo baseado em regressão, sua implementação é direta e eficiente. Além disso, o DNO apresenta melhoria monotônica ao longo das iterações, o que o ajuda a melhorar mesmo sobre um professor forte (como o GPT-4). Em nossos experimentos, um modelo Orca-2.5 de 7 bilhões de parâmetros alinhado pelo DNO alcança a taxa de vitória state-of-the-art de 33% contra o GPT-4-Turbo no AlpacaEval 2.0 (mesmo após o controle do comprimento da resposta), um ganho absoluto de 26% (7% para 33%) sobre o modelo inicial. Ele supera modelos com muito mais parâmetros, incluindo Mistral Large, Self-Rewarding LM (70 bilhões de parâmetros) e versões mais antigas do GPT-4.

English

This paper studies post-training large language models (LLMs) using preference feedback from a powerful oracle to help a model iteratively improve over itself. The typical approach for post-training LLMs involves Reinforcement Learning from Human Feedback (RLHF), which traditionally separates reward learning and subsequent policy optimization. However, such a reward maximization approach is limited by the nature of "point-wise" rewards (such as Bradley-Terry model), which fails to express complex intransitive or cyclic preference relations. While advances on RLHF show reward learning and policy optimization can be merged into a single contrastive objective for stability, they yet still remain tethered to the reward maximization framework. Recently, a new wave of research sidesteps the reward maximization presumptions in favor of directly optimizing over "pair-wise" or general preferences. In this paper, we introduce Direct Nash Optimization (DNO), a provable and scalable algorithm that marries the simplicity and stability of contrastive learning with theoretical generality from optimizing general preferences. Because DNO is a batched on-policy algorithm using a regression-based objective, its implementation is straightforward and efficient. Moreover, DNO enjoys monotonic improvement across iterations that help it improve even over a strong teacher (such as GPT-4). In our experiments, a resulting 7B parameter Orca-2.5 model aligned by DNO achieves the state-of-the-art win-rate against GPT-4-Turbo of 33% on AlpacaEval 2.0 (even after controlling for response length), an absolute gain of 26% (7% to 33%) over the initializing model. It outperforms models with far more parameters, including Mistral Large, Self-Rewarding LM (70B parameters), and older versions of GPT-4.

Otimização Direta de Nash: Ensinando Modelos de Linguagem a se Aprimorarem com Preferências Gerais

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Resumo

Support