Оптимизация Предпочтения Вмешательства с Модулированием (MIPO): Сохранение Простого, Улучшение Сложного
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult
September 26, 2024
Авторы: Cheolhun Jang
cs.AI
Аннотация
Методы оптимизации предпочтений обычно начинают обучение с хорошо обученной модели SFT в качестве эталонной модели. В RLHF и DPO в процессе оптимизации предпочтений используется регуляризационный член, который предотвращает слишком значительное отклонение модели политики от распределения эталонной модели, тем самым избегая генерации аномальных ответов. Если эталонная модель уже хорошо согласована с имеющимися данными или требует лишь незначительных коррекций, этот подход может привести к созданию хорошо согласованной модели. Однако, если эталонная модель не согласована с имеющимися данными и требует значительного отклонения от своего текущего состояния, регуляризационный член на самом деле может помешать согласованию модели. В данном исследовании мы предлагаем метод Modulated Intervention Preference Optimization (MIPO) для решения этой проблемы. MIPO модулирует степень вмешательства относительно эталонной модели в зависимости от того, насколько хорошо имеющиеся данные с ней согласованы. Если данные хорошо согласованы, вмешательство увеличивается для предотвращения значительного отклонения модели политики от эталонной модели. Напротив, если согласование плохое, вмешательство уменьшается для облегчения более интенсивного обучения. Мы сравниваем производительность MIPO и DPO с использованием Mistral-7B и Llama3-8B в Alpaca Eval 2.0 и MT-Bench. Экспериментальные результаты показывают, что MIPO последовательно превосходит DPO в различных сценариях оценки.
English
Preference optimization methods typically begin training with a well-trained
SFT model as a reference model. In RLHF and DPO, a regularization term is used
during the preference optimization process to prevent the policy model from
deviating too far from the reference model's distribution, thereby avoiding the
generation of anomalous responses. When the reference model is already
well-aligned with the given data or only requires slight adjustments, this
approach can produce a well-aligned model. However, if the reference model is
not aligned with the given data and requires significant deviation from its
current state, a regularization term may actually hinder the model alignment.
In this study, we propose Modulated Intervention Preference
Optimization (MIPO) to address this issue. MIPO modulates the degree of
intervention from the reference model based on how well the given data is
aligned with it. If the data is well-aligned, the intervention is increased to
prevent the policy model from diverging significantly from reference model.
Conversely, if the alignment is poor, the interference is reduced to facilitate
more extensive training. We compare the performance of MIPO and DPO using
Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental
results demonstrate that MIPO consistently outperforms DPO across various
evaluation scenarios.Summary
AI-Generated Summary