mDPO : Optimisation Conditionnelle des Préférences pour les Modèles de Langage Multimodaux de Grande Taille

Résumé

L'optimisation directe des préférences (DPO) s'est avérée être une méthode efficace pour l'alignement des grands modèles de langage (LLM). Des travaux récents ont tenté d'appliquer la DPO à des scénarios multimodaux, mais ont rencontré des difficultés à obtenir des améliorations constantes. À travers une expérience comparative, nous identifions le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales, où le modèle néglige la condition de l'image. Pour résoudre ce problème, nous proposons mDPO, un objectif DPO multimodal qui empêche la surpriorisation des préférences basées uniquement sur le langage en optimisant également la préférence pour l'image. De plus, nous introduisons une ancre de récompense qui force la récompense à être positive pour les réponses choisies, évitant ainsi la diminution de leur probabilité — un problème intrinsèque à l'optimisation des préférences relatives. Les expériences menées sur deux LLM multimodaux de tailles différentes et trois benchmarks largement utilisés démontrent que mDPO résout efficacement le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales et améliore significativement les performances du modèle, en particulier en réduisant les hallucinations.

English

Direct preference optimization (DPO) has shown to be an effective method for large language model (LLM) alignment. Recent works have attempted to apply DPO to multimodal scenarios but have found it challenging to achieve consistent improvement. Through a comparative experiment, we identify the unconditional preference problem in multimodal preference optimization, where the model overlooks the image condition. To address this problem, we propose mDPO, a multimodal DPO objective that prevents the over-prioritization of language-only preferences by also optimizing image preference. Moreover, we introduce a reward anchor that forces the reward to be positive for chosen responses, thereby avoiding the decrease in their likelihood -- an intrinsic problem of relative preference optimization. Experiments on two multimodal LLMs of different sizes and three widely used benchmarks demonstrate that mDPO effectively addresses the unconditional preference problem in multimodal preference optimization and significantly improves model performance, particularly in reducing hallucination.

mDPO : Optimisation Conditionnelle des Préférences pour les Modèles de Langage Multimodaux de Grande Taille

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Résumé

Support