LiPO: Otimização de Preferências por Listas através de Aprendizado de Ranqueamento

Resumo

Alinhar modelos de linguagem (LMs) com feedback humano curado é crucial para controlar seus comportamentos em aplicações do mundo real. Vários métodos recentes de otimização de políticas, como DPO e SLiC, servem como alternativas promissoras à abordagem tradicional de Aprendizado por Reforço com Feedback Humano (RLHF). Na prática, o feedback humano frequentemente vem no formato de uma lista ordenada de múltiplas respostas para amortizar o custo de leitura do prompt. Múltiplas respostas também podem ser classificadas por modelos de recompensa ou feedback de IA. Faltam estudos sobre o ajuste direto a uma lista de respostas. Neste trabalho, formulamos o alinhamento de LM como um problema de ordenação listwise e descrevemos o framework de Otimização de Preferências Listwise (LiPO), onde a política pode potencialmente aprender de forma mais eficaz a partir de uma lista ordenada de respostas plausíveis dado o prompt. Essa visão estabelece uma conexão explícita com Aprendizado para Ordenação (LTR), onde a maioria dos trabalhos existentes de otimização de preferências pode ser mapeada para objetivos de ordenação existentes, especialmente os pares. Seguindo essa conexão, fornecemos uma análise de objetivos de ordenação que não são bem estudados para o alinhamento de LM, com DPO e SLiC como casos especiais quando o tamanho da lista é dois. Em particular, destacamos um método específico, LiPO-{\lambda}, que aproveita um objetivo de ordenação listwise de última geração e pondera cada par de preferências de uma maneira mais avançada. Mostramos que LiPO-{\lambda} pode superar DPO e SLiC por uma margem clara em duas tarefas de alinhamento de preferências.

English

Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks.

LiPO: Otimização de Preferências por Listas através de Aprendizado de Ranqueamento

LiPO: Listwise Preference Optimization through Learning-to-Rank

Resumo

Support