OmniAlign-V: Naar verbeterde afstemming van MLLM's met menselijke voorkeuren
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
February 25, 2025
Auteurs: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI
Samenvatting
Recente vooruitgang in open-source multimodale grote taalmodellen (MLLMs) heeft zich voornamelijk gericht op het verbeteren van fundamentele capaciteiten, waardoor een aanzienlijke kloof ontstaat in de afstemming op menselijke voorkeuren. Dit artikel introduceert OmniAlign-V, een uitgebreide dataset van 200K hoogwaardige trainingsvoorbeelden met diverse afbeeldingen, complexe vragen en uiteenlopende antwoordformaten om de afstemming van MLLMs op menselijke voorkeuren te verbeteren. We presenteren ook MM-AlignBench, een door mensen geannoteerde benchmark die specifiek is ontworpen om de afstemming van MLLMs op menselijke waarden te evalueren. Experimentele resultaten tonen aan dat het finetunen van MLLMs met OmniAlign-V, gebruikmakend van Supervised Fine-Tuning (SFT) of Direct Preference Optimization (DPO), de afstemming op menselijke voorkeuren aanzienlijk verbetert, terwijl de prestaties op standaard VQA-benchmarks behouden of zelfs verbeterd worden, waardoor hun fundamentele capaciteiten intact blijven. Onze datasets, benchmark, code en checkpoints zijn vrijgegeven op https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs)
have primarily focused on enhancing foundational capabilities, leaving a
significant gap in human preference alignment. This paper introduces
OmniAlign-V, a comprehensive dataset of 200K high-quality training samples
featuring diverse images, complex questions, and varied response formats to
improve MLLMs' alignment with human preferences. We also present MM-AlignBench,
a human-annotated benchmark specifically designed to evaluate MLLMs' alignment
with human values. Experimental results show that finetuning MLLMs with
OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference
Optimization (DPO), significantly enhances human preference alignment while
maintaining or enhancing performance on standard VQA benchmarks, preserving
their fundamental capabilities. Our datasets, benchmark, code and checkpoints
have been released at https://github.com/PhoenixZ810/OmniAlign-V.Summary
AI-Generated Summary