ChatPaper.aiChatPaper

Понимание политик ссылок в прямой оптимизации предпочтений

Understanding Reference Policies in Direct Preference Optimization

July 18, 2024
Авторы: Yixin Liu, Pengfei Liu, Arman Cohan
cs.AI

Аннотация

Оптимизация прямого предпочтения (Direct Preference Optimization, DPO) стала широко используемым методом обучения для настройки инструкций крупных языковых моделей (Large Language Models, LLMs). В данной работе мы исследуем мало изученный аспект DPO - его зависимость от эталонной модели или политики. Эти эталонные политики, обычно представленные в виде модели, которую необходимо дополнительно настраивать, важны, поскольку они могут устанавливать верхний предел эффективности DPO. Поэтому мы рассматриваем три связанных исследовательских вопроса в данной работе. Во-первых, мы исследуем оптимальную силу ограничения расхождения Кульбака-Лейблера в DPO, которое штрафует отклонения от эталонной политики, и обнаруживаем, что DPO чувствителен к этой силе. Затем мы исследуем необходимость эталонных политик для настройки инструкций, предоставляя как теоретические, так и эмпирические сравнения между DPO и связанными целями обучения, демонстрируя превосходство DPO. Кроме того, мы исследуем, приносит ли DPO пользу от более сильных эталонных политик, обнаруживая, что более сильная эталонная политика может привести к улучшению производительности, но только если она похожа на модель, которую настраивают. Наши результаты подчеркивают сбивающую с толку роль эталонных политик в DPO и предлагают практические рекомендации, а также выявляют открытые исследовательские вопросы для будущих исследований.
English
Direct Preference Optimization (DPO) has become a widely used training method for the instruction fine-tuning of large language models (LLMs). In this work, we explore an under-investigated aspect of DPO - its dependency on the reference model or policy. Such reference policies, typically instantiated as the model to be further fine-tuned, are important since they can impose an upper limit on DPO's effectiveness. Therefore, we address three related research questions in this work. First, we explore the optimal strength of the KL-divergence constraint in DPO, which penalizes deviations from the reference policy, and find that DPO is sensitive to this strength. Next, we examine the necessity of reference policies for instruction fine-tuning by providing both theoretical and empirical comparisons between DPO and related learning objectives, demonstrating DPO's superiority. Additionally, we investigate whether DPO benefits from stronger reference policies, finding that a stronger reference policy can lead to improved performance, but only when it is similar to the model being fine-tuned. Our findings highlight the confounding role of reference policies in DPO and offer insights for best practices, while also identifying open research questions for future studies.

Summary

AI-Generated Summary

PDF173November 28, 2024