ChatPaper.aiChatPaper

LiPO: Listwise Preference Optimalisatie via Learning-to-Rank

LiPO: Listwise Preference Optimization through Learning-to-Rank

February 2, 2024
Auteurs: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang
cs.AI

Samenvatting

Het afstemmen van taalmodelen (LMs) op gecureerde menselijke feedback is cruciaal om hun gedrag in praktijktoepassingen te beheersen. Verschillende recente beleidsoptimalisatiemethoden, zoals DPO en SLiC, dienen als veelbelovende alternatieven voor de traditionele Reinforcement Learning from Human Feedback (RLHF)-aanpak. In de praktijk komt menselijke feedback vaak in de vorm van een gerangschikte lijst van meerdere reacties om de kosten van het lezen van prompts te amortiseren. Meerdere reacties kunnen ook worden gerangschikt door beloningsmodellen of AI-feedback. Er ontbreekt een dergelijke studie over het direct aanpassen aan een lijst van reacties. In dit werk formuleren we de afstemming van LMs als een lijstgewijs rangschikkingsprobleem en beschrijven we het Listwise Preference Optimization (LiPO)-framework, waarbij het beleid mogelijk effectiever kan leren van een gerangschikte lijst van plausibele reacties gegeven de prompt. Dit perspectief legt een expliciete verbinding met Learning-to-Rank (LTR), waar de meeste bestaande voorkeursoptimalisatiewerkzaamheden kunnen worden gekoppeld aan bestaande rangschikkingsdoelen, vooral paarsgewijze. In navolging van deze verbinding bieden we een onderzoek naar rangschikkingsdoelen die niet goed zijn bestudeerd voor LM-afstemming, met DPO en SLiC als speciale gevallen wanneer de lijstgrootte twee is. In het bijzonder belichten we een specifieke methode, LiPO-{\lambda}, die gebruikmaakt van een state-of-the-art lijstgewijs rangschikkingsdoel en elk voorkeurspaar op een meer geavanceerde manier weegt. We laten zien dat LiPO-{\lambda} DPO en SLiC met een duidelijke marge kan overtreffen op twee voorkeursafstemmingstaken.
English
Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks.
PDF206December 22, 2025