혼합 선호도 최적화를 통해 다중 모달 대형 언어 모델의 추론 능력 향상Enhancing the Reasoning Ability of Multimodal Large Language Models via
Mixed Preference Optimization
기존 오픈 소스 다중 모달 대형 언어 모델 (MLLMs)은 일반적으로 사전 훈련과 지도된 세밀 조정을 포함하는 교육 과정을 따릅니다. 그러나 이러한 모델들은 분포 변화로 인해 다중 모달 추론, 특히 Chain-of-Thought (CoT) 성능에 제약을 받습니다. 이를 해결하기 위해 우리는 MLLMs의 다중 모달 추론 능력을 향상시키기 위해 선호도 최적화 (PO) 과정을 도입합니다. 구체적으로 (1) 데이터 측면에서 우리는 고품질 대규모 다중 모달 추론 선호 데이터 집합 MMPR을 만들기 위한 자동 선호 데이터 구축 파이프라인을 설계하고, (2) 모델 측면에서는 PO를 MLLMs와 통합하고, Mixed Preference Optimization (MPO)라는 간단하면서 효과적인 방법을 개발하여 다중 모달 CoT 성능을 향상시킵니다. 우리의 접근 방식은 다중 벤치마크에서 향상된 성능을 보여주며, 특히 다중 모달 추론 작업에서 두드러진 성과를 보입니다. 특히, InternVL2-8B-MPO라는 우리의 모델은 MathVista에서 67.0의 정확도를 달성하여 InternVL2-8B보다 8.7 포인트 우수하며 10배 더 큰 InternVL2-76B와 유사한 성능을 달성합니다. 이 연구가 MLLMs의 더 나은 발전을 일으킬 수 있기를 희망합니다. 코드, 데이터 및 모델은 공개적으로 공개될 것입니다.