ChatPaper.aiChatPaper

OmniAlign-V: 인간 선호도와 MLLM의 향상된 정렬을 향하여

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

February 25, 2025
저자: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI

초록

최근 오픈소스 멀티모달 대형 언어 모델(MLLM)의 발전은 주로 기초 능력 향상에 초점을 맞추어 왔으며, 이로 인해 인간 선호도 정렬 측면에서 상당한 격차가 발생했습니다. 본 논문은 인간 선호도와의 정렬을 개선하기 위해 다양한 이미지, 복잡한 질문, 그리고 다양한 응답 형식을 포함한 20만 개의 고품질 학습 샘플로 구성된 OmniAlign-V 데이터셋을 소개합니다. 또한, MLLM의 인간 가치 정렬을 평가하기 위해 특별히 설계된 인간 주석 벤치마크인 MM-AlignBench를 제시합니다. 실험 결과, OmniAlign-V를 사용하여 지도 미세 조정(SFT) 또는 직접 선호도 최적화(DPO) 방식으로 MLLM을 미세 조정하면 인간 선호도 정렬이 크게 향상되면서도 표준 VQA 벤치마크에서의 성능을 유지하거나 향상시켜 기본 능력을 보존할 수 있음을 보여줍니다. 우리의 데이터셋, 벤치마크, 코드 및 체크포인트는 https://github.com/PhoenixZ810/OmniAlign-V에서 공개되었습니다.
English
Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

Summary

AI-Generated Summary

PDF732February 26, 2025