OmniAlign-V: マルチモーダル大規模言語モデルの人間の嗜好との整合性強化に向けて
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
February 25, 2025
著者: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI
要旨
オープンソースのマルチモーダル大規模言語モデル(MLLMs)の最近の進展は、主に基盤能力の強化に焦点を当てており、人間の嗜好との整合性において大きなギャップが残されています。本論文では、多様な画像、複雑な質問、および様々な応答形式を特徴とする20万件の高品質なトレーニングサンプルからなる包括的なデータセット「OmniAlign-V」を紹介し、MLLMsの人間の嗜好との整合性を向上させます。また、MLLMsの人間の価値観との整合性を評価するために特別に設計された人間による注釈付きベンチマーク「MM-AlignBench」を提示します。実験結果は、OmniAlign-Vを使用して教師ありファインチューニング(SFT)または直接嗜好最適化(DPO)を行うことで、MLLMsの人間の嗜好との整合性が大幅に向上し、標準的なVQAベンチマークでの性能を維持または向上させながら、その基本的な能力を保持することを示しています。私たちのデータセット、ベンチマーク、コード、およびチェックポイントは、https://github.com/PhoenixZ810/OmniAlign-V で公開されています。
English
Recent advancements in open-source multi-modal large language models (MLLMs)
have primarily focused on enhancing foundational capabilities, leaving a
significant gap in human preference alignment. This paper introduces
OmniAlign-V, a comprehensive dataset of 200K high-quality training samples
featuring diverse images, complex questions, and varied response formats to
improve MLLMs' alignment with human preferences. We also present MM-AlignBench,
a human-annotated benchmark specifically designed to evaluate MLLMs' alignment
with human values. Experimental results show that finetuning MLLMs with
OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference
Optimization (DPO), significantly enhances human preference alignment while
maintaining or enhancing performance on standard VQA benchmarks, preserving
their fundamental capabilities. Our datasets, benchmark, code and checkpoints
have been released at https://github.com/PhoenixZ810/OmniAlign-V.Summary
AI-Generated Summary