mDPO : Optimisation Conditionnelle des Préférences pour les Modèles de Langage Multimodaux de Grande Taille
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
June 17, 2024
Auteurs: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI
Résumé
L'optimisation directe des préférences (DPO) s'est avérée être une méthode efficace pour l'alignement des grands modèles de langage (LLM). Des travaux récents ont tenté d'appliquer la DPO à des scénarios multimodaux, mais ont rencontré des difficultés à obtenir des améliorations constantes. À travers une expérience comparative, nous identifions le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales, où le modèle néglige la condition de l'image. Pour résoudre ce problème, nous proposons mDPO, un objectif DPO multimodal qui empêche la surpriorisation des préférences basées uniquement sur le langage en optimisant également la préférence pour l'image. De plus, nous introduisons une ancre de récompense qui force la récompense à être positive pour les réponses choisies, évitant ainsi la diminution de leur probabilité — un problème intrinsèque à l'optimisation des préférences relatives. Les expériences menées sur deux LLM multimodaux de tailles différentes et trois benchmarks largement utilisés démontrent que mDPO résout efficacement le problème de préférence inconditionnelle dans l'optimisation des préférences multimodales et améliore significativement les performances du modèle, en particulier en réduisant les hallucinations.
English
Direct preference optimization (DPO) has shown to be an effective method for
large language model (LLM) alignment. Recent works have attempted to apply DPO
to multimodal scenarios but have found it challenging to achieve consistent
improvement. Through a comparative experiment, we identify the unconditional
preference problem in multimodal preference optimization, where the model
overlooks the image condition. To address this problem, we propose mDPO, a
multimodal DPO objective that prevents the over-prioritization of language-only
preferences by also optimizing image preference. Moreover, we introduce a
reward anchor that forces the reward to be positive for chosen responses,
thereby avoiding the decrease in their likelihood -- an intrinsic problem of
relative preference optimization. Experiments on two multimodal LLMs of
different sizes and three widely used benchmarks demonstrate that mDPO
effectively addresses the unconditional preference problem in multimodal
preference optimization and significantly improves model performance,
particularly in reducing hallucination.Summary
AI-Generated Summary