LiPO: Optimización de Preferencias por Listas mediante Aprendizaje para Clasificación
LiPO: Listwise Preference Optimization through Learning-to-Rank
February 2, 2024
Autores: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang
cs.AI
Resumen
Alinear los modelos de lenguaje (LM) con retroalimentación humana curada es crucial para controlar su comportamiento en aplicaciones del mundo real. Varios métodos recientes de optimización de políticas, como DPO y SLiC, sirven como alternativas prometedoras al enfoque tradicional de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). En la práctica, la retroalimentación humana suele presentarse en formato de una lista clasificada de múltiples respuestas para amortizar el costo de leer el prompt. Las múltiples respuestas también pueden ser clasificadas por modelos de recompensa o retroalimentación de IA. Hasta ahora, ha faltado un estudio que aborde directamente el ajuste sobre una lista de respuestas. En este trabajo, formulamos la alineación de LM como un problema de clasificación por listas y describimos el marco de Optimización de Preferencias por Listas (LiPO), donde la política puede aprender de manera más efectiva a partir de una lista clasificada de respuestas plausibles dado el prompt. Esta perspectiva establece una conexión explícita con el Aprendizaje para Clasificar (LTR), donde la mayoría del trabajo existente en optimización de preferencias puede mapearse a objetivos de clasificación existentes, especialmente los basados en pares. Siguiendo esta conexión, examinamos objetivos de clasificación que no han sido bien estudiados para la alineación de LM, con DPO y SLiC como casos especiales cuando el tamaño de la lista es dos. En particular, destacamos un método específico, LiPO-{\lambda}, que aprovecha un objetivo de clasificación por listas de última generación y pondera cada par de preferencias de una manera más avanzada. Demostramos que LiPO-{\lambda} puede superar a DPO y SLiC por un margen claro en dos tareas de alineación de preferencias.
English
Aligning language models (LMs) with curated human feedback is critical to
control their behaviors in real-world applications. Several recent policy
optimization methods, such as DPO and SLiC, serve as promising alternatives to
the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In
practice, human feedback often comes in a format of a ranked list over multiple
responses to amortize the cost of reading prompt. Multiple responses can also
be ranked by reward models or AI feedback. There lacks such a study on directly
fitting upon a list of responses. In this work, we formulate the LM alignment
as a listwise ranking problem and describe the Listwise Preference Optimization
(LiPO) framework, where the policy can potentially learn more effectively from
a ranked list of plausible responses given the prompt. This view draws an
explicit connection to Learning-to-Rank (LTR), where most existing preference
optimization work can be mapped to existing ranking objectives, especially
pairwise ones. Following this connection, we provide an examination of ranking
objectives that are not well studied for LM alignment withDPO and SLiC as
special cases when list size is two. In particular, we highlight a specific
method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking
objective and weights each preference pair in a more advanced manner. We show
that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two
preference alignment tasks.