Изучите вашу эталонную модель для действительно хорошего выравнивания.Learn Your Reference Model for Real Good Alignment
Сложность проблемы выравнивания обусловлена тем, что существующие методы нестабильны. Исследователи постоянно придумывают различные хитрости, чтобы решить этот недостаток. Например, в фундаментальной технике обучения с подкреплением от обратной связи человека (RLHF) выравнивания языковой модели, помимо максимизации вознаграждения, минимизируется дивергенция Кульбака-Лейблера между обучаемой политикой и политикой SFT. Это дополнение предотвращает переобучение модели на модель вознаграждения (RM) и генерацию текстов, не относящихся к области RM. Метод оптимизации прямых предпочтений (DPO) переформулирует задачу оптимизации RLHF и устраняет модель вознаграждения, сохраняя неявное требование к тому, чтобы политика была близка к политике SFT. В нашей статье мы утверждаем, что это неявное ограничение в методе DPO приводит к неоптимальным результатам. Мы предлагаем новый метод, называемый методом доверительного интервала DPO (TR-DPO), который обновляет опорную политику во время обучения. С таким простым обновлением мы демонстрируем эффективность TR-DPO по сравнению с DPO на наборах данных Anthropic HH и TLDR. Мы показываем, что TR-DPO превосходит DPO до 19%, измеренное автоматической оценкой с помощью GPT-4. Новый подход к выравниванию, который мы предлагаем, позволяет нам улучшить качество моделей по нескольким параметрам одновременно, таким как связность, правильность, уровень деталей, полезность и безопасность.