ChatPaper.aiChatPaper

Otimização de Preferências por Auto-Jogo para Alinhamento de Modelos de Linguagem

Self-Play Preference Optimization for Language Model Alignment

May 1, 2024
Autores: Yue Wu, Zhiqing Sun, Huizhuo Yuan, Kaixuan Ji, Yiming Yang, Quanquan Gu
cs.AI

Resumo

As abordagens tradicionais de aprendizado por reforço a partir de feedback humano (RLHF) que dependem de modelos paramétricos, como o modelo de Bradley-Terry, falham em capturar a intransitividade e a irracionalidade nas preferências humanas. Avanços recentes sugerem que trabalhar diretamente com probabilidades de preferência pode fornecer uma representação mais precisa das preferências humanas, permitindo um alinhamento de modelos de linguagem mais flexível e preciso. Neste artigo, propomos um método baseado em autojogo para o alinhamento de modelos de linguagem, que trata o problema como um jogo de soma constante entre dois jogadores, com o objetivo de identificar a política de equilíbrio de Nash. Nossa abordagem, denominada Otimização de Preferência por Autojogo (SPPO), aproxima o equilíbrio de Nash por meio de atualizações iterativas da política e possui garantia teórica de convergência. Nosso método pode aumentar efetivamente a log-verossimilhança da resposta escolhida e diminuir a da resposta rejeitada, o que não pode ser trivialmente alcançado por funções de perda simétricas de pares, como a Otimização Direta de Preferência (DPO) e a Otimização de Preferência de Identidade (IPO). Em nossos experimentos, utilizando apenas 60 mil prompts (sem respostas) do conjunto de dados UltraFeedback e sem qualquer aumento de prompt, ao aproveitar um modelo de preferência pré-treinado PairRM com apenas 0,4 bilhão de parâmetros, o SPPO conseguiu obter um modelo a partir do ajuste fino do Mistral-7B-Instruct-v0.2 que alcançou a taxa de vitória controlada por comprimento de 28,53% contra o GPT-4-Turbo no AlpacaEval 2.0, estabelecendo um novo estado da arte. Ele também superou o DPO (iterativo) e o IPO no MT-Bench e no Open LLM Leaderboard. Notavelmente, o forte desempenho do SPPO foi alcançado sem supervisão externa adicional (por exemplo, respostas, preferências, etc.) do GPT-4 ou de outros modelos de linguagem mais fortes.
English
Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed Self-Play Preference Optimization (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.
PDF277December 15, 2024