Optimisation des Préférences d'Intervention Modulées (MIPO) : Conserver la Facilité, Affiner la Difficulté
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult
September 26, 2024
Auteurs: Cheolhun Jang
cs.AI
Résumé
Les méthodes d'optimisation des préférences commencent généralement l'entraînement avec un modèle SFT bien entraîné en tant que modèle de référence. Dans RLHF et DPO, un terme de régularisation est utilisé pendant le processus d'optimisation des préférences pour empêcher le modèle de politique de s'écarter trop de la distribution du modèle de référence, évitant ainsi la génération de réponses anormales. Lorsque le modèle de référence est déjà bien aligné avec les données fournies ou ne nécessite que de légères adaptations, cette approche peut produire un modèle bien aligné. Cependant, si le modèle de référence n'est pas aligné avec les données fournies et nécessite un écart significatif par rapport à son état actuel, un terme de régularisation peut en fait entraver l'alignement du modèle. Dans cette étude, nous proposons l'Optimisation des Préférences par Intervention Modulée (MIPO) pour résoudre ce problème. MIPO module le degré d'intervention à partir du modèle de référence en fonction de l'alignement des données fournies avec celui-ci. Si les données sont bien alignées, l'intervention est augmentée pour empêcher le modèle de politique de diverger significativement du modèle de référence. En revanche, si l'alignement est faible, l'interférence est réduite pour faciliter un entraînement plus approfondi. Nous comparons les performances de MIPO et de DPO en utilisant Mistral-7B et Llama3-8B dans Alpaca Eval 2.0 et MT-Bench. Les résultats expérimentaux démontrent que MIPO surpasse systématiquement DPO dans divers scénarios d'évaluation.
English
Preference optimization methods typically begin training with a well-trained
SFT model as a reference model. In RLHF and DPO, a regularization term is used
during the preference optimization process to prevent the policy model from
deviating too far from the reference model's distribution, thereby avoiding the
generation of anomalous responses. When the reference model is already
well-aligned with the given data or only requires slight adjustments, this
approach can produce a well-aligned model. However, if the reference model is
not aligned with the given data and requires significant deviation from its
current state, a regularization term may actually hinder the model alignment.
In this study, we propose Modulated Intervention Preference
Optimization (MIPO) to address this issue. MIPO modulates the degree of
intervention from the reference model based on how well the given data is
aligned with it. If the data is well-aligned, the intervention is increased to
prevent the policy model from diverging significantly from reference model.
Conversely, if the alignment is poor, the interference is reduced to facilitate
more extensive training. We compare the performance of MIPO and DPO using
Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental
results demonstrate that MIPO consistently outperforms DPO across various
evaluation scenarios.Summary
AI-Generated Summary