Понимание политик ссылок в прямой оптимизации предпочтений
Understanding Reference Policies in Direct Preference Optimization
July 18, 2024
Авторы: Yixin Liu, Pengfei Liu, Arman Cohan
cs.AI
Аннотация
Оптимизация прямого предпочтения (Direct Preference Optimization, DPO) стала широко используемым методом обучения для настройки инструкций крупных языковых моделей (Large Language Models, LLMs). В данной работе мы исследуем мало изученный аспект DPO - его зависимость от эталонной модели или политики. Эти эталонные политики, обычно представленные в виде модели, которую необходимо дополнительно настраивать, важны, поскольку они могут устанавливать верхний предел эффективности DPO. Поэтому мы рассматриваем три связанных исследовательских вопроса в данной работе. Во-первых, мы исследуем оптимальную силу ограничения расхождения Кульбака-Лейблера в DPO, которое штрафует отклонения от эталонной политики, и обнаруживаем, что DPO чувствителен к этой силе. Затем мы исследуем необходимость эталонных политик для настройки инструкций, предоставляя как теоретические, так и эмпирические сравнения между DPO и связанными целями обучения, демонстрируя превосходство DPO. Кроме того, мы исследуем, приносит ли DPO пользу от более сильных эталонных политик, обнаруживая, что более сильная эталонная политика может привести к улучшению производительности, но только если она похожа на модель, которую настраивают. Наши результаты подчеркивают сбивающую с толку роль эталонных политик в DPO и предлагают практические рекомендации, а также выявляют открытые исследовательские вопросы для будущих исследований.
English
Direct Preference Optimization (DPO) has become a widely used training method
for the instruction fine-tuning of large language models (LLMs). In this work,
we explore an under-investigated aspect of DPO - its dependency on the
reference model or policy. Such reference policies, typically instantiated as
the model to be further fine-tuned, are important since they can impose an
upper limit on DPO's effectiveness. Therefore, we address three related
research questions in this work. First, we explore the optimal strength of the
KL-divergence constraint in DPO, which penalizes deviations from the reference
policy, and find that DPO is sensitive to this strength. Next, we examine the
necessity of reference policies for instruction fine-tuning by providing both
theoretical and empirical comparisons between DPO and related learning
objectives, demonstrating DPO's superiority. Additionally, we investigate
whether DPO benefits from stronger reference policies, finding that a stronger
reference policy can lead to improved performance, but only when it is similar
to the model being fine-tuned. Our findings highlight the confounding role of
reference policies in DPO and offer insights for best practices, while also
identifying open research questions for future studies.Summary
AI-Generated Summary