mDPO: 멀티모달 대규모 언어 모델을 위한 조건부 선호도 최적화
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
June 17, 2024
저자: Fei Wang, Wenxuan Zhou, James Y. Huang, Nan Xu, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI
초록
직접 선호도 최적화(Direct Preference Optimization, DPO)는 대규모 언어 모델(LLM) 정렬에 효과적인 방법으로 입증되었습니다. 최근 연구들은 DPO를 다중모달 시나리오에 적용하려 시도했으나, 일관된 성능 향상을 달성하는 데 어려움을 겪었습니다. 비교 실험을 통해, 우리는 다중모달 선호도 최적화에서 모델이 이미지 조건을 간과하는 무조건적 선호도 문제를 확인했습니다. 이 문제를 해결하기 위해, 우리는 언어만의 선호도를 과도하게 우선시하는 것을 방지하고 이미지 선호도도 함께 최적화하는 다중모달 DPO 목적 함수인 mDPO를 제안합니다. 또한, 선택된 응답에 대해 보상이 양수가 되도록 강제하는 보상 앵커를 도입함으로써 상대적 선호도 최적화의 고유한 문제인 선택된 응답의 가능성 감소를 방지합니다. 서로 다른 크기의 두 다중모달 LLM과 세 가지 널리 사용되는 벤치마크에서의 실험을 통해, mDPO가 다중모달 선호도 최적화에서 무조건적 선호도 문제를 효과적으로 해결하고, 특히 환각 현상을 줄이는 데 있어 모델 성능을 크게 향상시킴을 입증했습니다.
English
Direct preference optimization (DPO) has shown to be an effective method for
large language model (LLM) alignment. Recent works have attempted to apply DPO
to multimodal scenarios but have found it challenging to achieve consistent
improvement. Through a comparative experiment, we identify the unconditional
preference problem in multimodal preference optimization, where the model
overlooks the image condition. To address this problem, we propose mDPO, a
multimodal DPO objective that prevents the over-prioritization of language-only
preferences by also optimizing image preference. Moreover, we introduce a
reward anchor that forces the reward to be positive for chosen responses,
thereby avoiding the decrease in their likelihood -- an intrinsic problem of
relative preference optimization. Experiments on two multimodal LLMs of
different sizes and three widely used benchmarks demonstrate that mDPO
effectively addresses the unconditional preference problem in multimodal
preference optimization and significantly improves model performance,
particularly in reducing hallucination.Summary
AI-Generated Summary