LiPO: Ottimizzazione Listwise delle Preferenze attraverso l'Apprendimento al Ranking

Abstract

Allineare i modelli linguistici (LM) con feedback umano curato è fondamentale per controllarne i comportamenti nelle applicazioni reali. Diversi recenti metodi di ottimizzazione delle politiche, come DPO e SLiC, rappresentano promettenti alternative al tradizionale approccio di Reinforcement Learning from Human Feedback (RLHF). Nella pratica, il feedback umano spesso si presenta sotto forma di una lista ordinata di più risposte per ammortizzare il costo della lettura del prompt. Anche i modelli di ricompensa o il feedback AI possono classificare più risposte. Manca tuttavia uno studio che si concentri direttamente sull'adattamento a una lista di risposte. In questo lavoro, formuliamo l'allineamento dei LM come un problema di ranking listwise e descriviamo il framework Listwise Preference Optimization (LiPO), in cui la politica può potenzialmente apprendere in modo più efficace da una lista ordinata di risposte plausibili date il prompt. Questa visione stabilisce una connessione esplicita con il Learning-to-Rank (LTR), dove la maggior parte dei lavori esistenti sull'ottimizzazione delle preferenze può essere mappata su obiettivi di ranking esistenti, in particolare quelli pairwise. Seguendo questa connessione, forniamo un'analisi degli obiettivi di ranking che non sono stati ben studiati per l'allineamento dei LM, con DPO e SLiC come casi speciali quando la dimensione della lista è due. In particolare, evidenziamo un metodo specifico, LiPO-{\lambda}, che sfrutta un obiettivo di ranking listwise all'avanguardia e pondera ogni coppia di preferenze in modo più avanzato. Mostriamo che LiPO-{\lambda} può superare DPO e SLiC con un margine significativo in due compiti di allineamento delle preferenze.

English

Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks.

LiPO: Ottimizzazione Listwise delle Preferenze attraverso l'Apprendimento al Ranking

LiPO: Listwise Preference Optimization through Learning-to-Rank

Abstract

Support