ChatPaper.aiChatPaper

LiPO: Оптимизация предпочтений на основе списков через обучение ранжированию

LiPO: Listwise Preference Optimization through Learning-to-Rank

February 2, 2024
Авторы: Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang
cs.AI

Аннотация

Согласование языковых моделей (LM) с курируемой обратной связью от людей имеет критическое значение для управления их поведением в реальных приложениях. Несколько недавних методов оптимизации политик, таких как DPO и SLiC, представляют собой перспективные альтернативы традиционному подходу обучения с подкреплением на основе человеческой обратной связи (RLHF). На практике человеческая обратная связь часто предоставляется в формате ранжированного списка нескольких ответов, чтобы снизить затраты на чтение промпта. Множественные ответы также могут быть ранжированы с помощью моделей вознаграждения или обратной связи от ИИ. Однако отсутствуют исследования, посвященные непосредственной адаптации на основе списка ответов. В данной работе мы формулируем согласование LM как задачу ранжирования списка и описываем фреймворк Listwise Preference Optimization (LiPO), в котором политика может потенциально обучаться более эффективно на основе ранжированного списка правдоподобных ответов для заданного промпта. Этот подход устанавливает явную связь с задачей Learning-to-Rank (LTR), где большинство существующих работ по оптимизации предпочтений могут быть сопоставлены с существующими ранжирующими целями, особенно парными. Следуя этой связи, мы проводим анализ ранжирующих целей, которые недостаточно изучены для согласования LM, рассматривая DPO и SLiC как частные случаи, когда размер списка равен двум. В частности, мы выделяем конкретный метод, LiPO-{\lambda}, который использует современную цель ранжирования списка и взвешивает каждую пару предпочтений более продвинутым образом. Мы показываем, что LiPO-{\lambda} может значительно превзойти DPO и SLiC на двух задачах согласования предпочтений.
English
Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a listwise ranking problem and describe the Listwise Preference Optimization (LiPO) framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives, especially pairwise ones. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment withDPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-{\lambda}, which leverages a state-of-the-art listwise ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-{\lambda} can outperform DPO and SLiC by a clear margin on two preference alignment tasks.
PDF206December 15, 2024