ChatPaper.aiChatPaper

Изучите вашу эталонную модель для действительно хорошего выравнивания.

Learn Your Reference Model for Real Good Alignment

April 15, 2024
Авторы: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI

Аннотация

Сложность проблемы выравнивания обусловлена тем, что существующие методы нестабильны. Исследователи постоянно придумывают различные хитрости, чтобы решить этот недостаток. Например, в фундаментальной технике обучения с подкреплением от обратной связи человека (RLHF) выравнивания языковой модели, помимо максимизации вознаграждения, минимизируется дивергенция Кульбака-Лейблера между обучаемой политикой и политикой SFT. Это дополнение предотвращает переобучение модели на модель вознаграждения (RM) и генерацию текстов, не относящихся к области RM. Метод оптимизации прямых предпочтений (DPO) переформулирует задачу оптимизации RLHF и устраняет модель вознаграждения, сохраняя неявное требование к тому, чтобы политика была близка к политике SFT. В нашей статье мы утверждаем, что это неявное ограничение в методе DPO приводит к неоптимальным результатам. Мы предлагаем новый метод, называемый методом доверительного интервала DPO (TR-DPO), который обновляет опорную политику во время обучения. С таким простым обновлением мы демонстрируем эффективность TR-DPO по сравнению с DPO на наборах данных Anthropic HH и TLDR. Мы показываем, что TR-DPO превосходит DPO до 19%, измеренное автоматической оценкой с помощью GPT-4. Новый подход к выравниванию, который мы предлагаем, позволяет нам улучшить качество моделей по нескольким параметрам одновременно, таким как связность, правильность, уровень деталей, полезность и безопасность.
English
The complexity of the alignment problem stems from the fact that existing methods are unstable. Researchers continuously invent various tricks to address this shortcoming. For instance, in the fundamental Reinforcement Learning From Human Feedback (RLHF) technique of Language Model alignment, in addition to reward maximization, the Kullback-Leibler divergence between the trainable policy and the SFT policy is minimized. This addition prevents the model from being overfitted to the Reward Model (RM) and generating texts that are out-of-domain for the RM. The Direct Preference Optimization (DPO) method reformulates the optimization task of RLHF and eliminates the Reward Model while tacitly maintaining the requirement for the policy to be close to the SFT policy. In our paper, we argue that this implicit limitation in the DPO method leads to sub-optimal results. We propose a new method called Trust Region DPO (TR-DPO), which updates the reference policy during training. With such a straightforward update, we demonstrate the effectiveness of TR-DPO against DPO on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by up to 19%, measured by automatic evaluation with GPT-4. The new alignment approach that we propose allows us to improve the quality of models across several parameters at once, such as coherence, correctness, level of detail, helpfulness, and harmlessness.

Summary

AI-Generated Summary

PDF870December 15, 2024