mDPO: Условная оптимизация предпочтений для мультимодальных крупных языковых моделей
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
June 17, 2024
Авторы: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI
Аннотация
Оптимизация прямых предпочтений (DPO) показала себя эффективным методом для выравнивания больших языковых моделей (LLM). Недавние работы пытались применить DPO к мультимодальным сценариям, но обнаружили, что достижение последовательного улучшения представляет собой сложную задачу. Через сравнительный эксперимент мы выявляем проблему безусловного предпочтения в мультимодальной оптимизации предпочтений, когда модель игнорирует условие изображения. Для решения этой проблемы мы предлагаем mDPO, мультимодальную целевую функцию DPO, которая предотвращает чрезмерное приоритизирование только языковых предпочтений путем оптимизации также предпочтений изображения. Более того, мы вводим якорь вознаграждения, который заставляет вознаграждение быть положительным для выбранных ответов, тем самым избегая снижения их вероятности - внутренней проблемы относительной оптимизации предпочтений. Эксперименты на двух мультимодальных LLM разного размера и трех широко используемых бенчмарках показывают, что mDPO эффективно решает проблему безусловного предпочтения в мультимодальной оптимизации предпочтений и значительно улучшает производительность модели, особенно в снижении галлюцинаций.
English
Direct preference optimization (DPO) has shown to be an effective method for
large language model (LLM) alignment. Recent works have attempted to apply DPO
to multimodal scenarios but have found it challenging to achieve consistent
improvement. Through a comparative experiment, we identify the unconditional
preference problem in multimodal preference optimization, where the model
overlooks the image condition. To address this problem, we propose mDPO, a
multimodal DPO objective that prevents the over-prioritization of language-only
preferences by also optimizing image preference. Moreover, we introduce a
reward anchor that forces the reward to be positive for chosen responses,
thereby avoiding the decrease in their likelihood -- an intrinsic problem of
relative preference optimization. Experiments on two multimodal LLMs of
different sizes and three widely used benchmarks demonstrate that mDPO
effectively addresses the unconditional preference problem in multimodal
preference optimization and significantly improves model performance,
particularly in reducing hallucination.