LiPO : Optimisation des Préférences par Liste via l'Apprentissage au Classement
LiPO: Listwise Preference Optimization through Learning-to-Rank
February 2, 2024
Auteurs: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang
cs.AI
Résumé
L'alignement des modèles de langage (LMs) avec des retours humains soigneusement sélectionnés est crucial pour contrôler leurs comportements dans des applications réelles. Plusieurs méthodes récentes d'optimisation de politique, telles que DPO et SLiC, constituent des alternatives prometteuses à l'approche traditionnelle de l'apprentissage par renforcement à partir de retours humains (RLHF). En pratique, les retours humains se présentent souvent sous la forme d'une liste classée de plusieurs réponses pour amortir le coût de lecture des prompts. Plusieurs réponses peuvent également être classées par des modèles de récompense ou des retours d'IA. Il manque une étude sur l'ajustement direct à partir d'une liste de réponses. Dans ce travail, nous formulons l'alignement des LMs comme un problème de classement par liste et décrivons le cadre d'optimisation des préférences par liste (LiPO), où la politique peut potentiellement apprendre plus efficacement à partir d'une liste classée de réponses plausibles données au prompt. Cette perspective établit un lien explicite avec l'apprentissage au classement (Learning-to-Rank, LTR), où la plupart des travaux existants sur l'optimisation des préférences peuvent être mappés à des objectifs de classement existants, en particulier ceux par paires. En suivant ce lien, nous examinons des objectifs de classement qui ne sont pas bien étudiés pour l'alignement des LMs, avec DPO et SLiC comme cas particuliers lorsque la taille de la liste est de deux. En particulier, nous mettons en avant une méthode spécifique, LiPO-{\lambda}, qui exploite un objectif de classement par liste de pointe et pondère chaque paire de préférences de manière plus avancée. Nous montrons que LiPO-{\lambda} peut surpasser DPO et SLiC de manière significative sur deux tâches d'alignement des préférences.
English
Aligning language models (LMs) with curated human feedback is critical to
control their behaviors in real-world applications. Several recent policy
optimization methods, such as DPO and SLiC, serve as promising alternatives to
the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In
practice, human feedback often comes in a format of a ranked list over multiple
responses to amortize the cost of reading prompt. Multiple responses can also
be ranked by reward models or AI feedback. There lacks such a study on directly
fitting upon a list of responses. In this work, we formulate the LM alignment
as a listwise ranking problem and describe the Listwise Preference Optimization
(LiPO) framework, where the policy can potentially learn more effectively from
a ranked list of plausible responses given the prompt. This view draws an
explicit connection to Learning-to-Rank (LTR), where most existing preference
optimization work can be mapped to existing ranking objectives, especially
pairwise ones. Following this connection, we provide an examination of ranking
objectives that are not well studied for LM alignment withDPO and SLiC as
special cases when list size is two. In particular, we highlight a specific
method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking
objective and weights each preference pair in a more advanced manner. We show
that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two
preference alignment tasks.