ChatPaper.aiChatPaper

LiPO: Listweise Präferenzoptimierung durch Learning-to-Rank

LiPO: Listwise Preference Optimization through Learning-to-Rank

February 2, 2024
Autoren: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang
cs.AI

Zusammenfassung

Die Ausrichtung von Sprachmodellen (LMs) an kuratiertem menschlichem Feedback ist entscheidend, um ihr Verhalten in realen Anwendungen zu steuern. Mehrere aktuelle Policy-Optimierungsmethoden, wie DPO und SLiC, bieten vielversprechende Alternativen zum traditionellen Ansatz des Reinforcement Learning from Human Feedback (RLHF). In der Praxis liegt menschliches Feedback oft in Form einer Rangliste über mehrere Antworten vor, um die Kosten für das Lesen von Prompts zu amortisieren. Mehrere Antworten können auch durch Belohnungsmodelle oder KI-Feedback gerankt werden. Es mangelt jedoch an Studien, die sich direkt auf eine Liste von Antworten konzentrieren. In dieser Arbeit formulieren wir die LM-Ausrichtung als ein listweises Ranking-Problem und beschreiben das Listwise Preference Optimization (LiPO)-Framework, bei dem die Policy potenziell effektiver aus einer Rangliste plausibler Antworten auf den Prompt lernen kann. Diese Sichtweise stellt eine explizite Verbindung zum Learning-to-Rank (LTR) her, wobei die meisten bestehenden Präferenzoptimierungsarbeiten auf bestehende Ranking-Ziele, insbesondere paarweise, abgebildet werden können. Im Anschluss an diese Verbindung untersuchen wir Ranking-Ziele, die für die LM-Ausrichtung mit DPO und SLiC als Spezialfälle bei einer Listengröße von zwei nicht gut untersucht sind. Insbesondere heben wir eine spezifische Methode, LiPO-{\lambda}, hervor, die ein modernes listweises Ranking-Ziel nutzt und jedes Präferenzpaar auf fortschrittlichere Weise gewichtet. Wir zeigen, dass LiPO-{\lambda} DPO und SLiC bei zwei Präferenzausrichtungsaufgaben deutlich übertreffen kann.
English
Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks.
PDF206December 15, 2024