OmniAlign-V: Verso un Miglior Allineamento dei MLLM con le Preferenze Umane
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
February 25, 2025
Autori: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI
Abstract
I recenti progressi nei modelli linguistici multimodali open-source (MLLMs) si sono concentrati principalmente sul potenziamento delle capacità di base, lasciando un significativo divario nell'allineamento con le preferenze umane. Questo articolo introduce OmniAlign-V, un dataset completo di 200.000 campioni di addestramento di alta qualità che presentano immagini diverse, domande complesse e formati di risposta variati, per migliorare l'allineamento degli MLLMs con le preferenze umane. Presentiamo inoltre MM-AlignBench, un benchmark annotato manualmente progettato specificamente per valutare l'allineamento degli MLLMs con i valori umani. I risultati sperimentali dimostrano che il fine-tuning degli MLLMs con OmniAlign-V, utilizzando il Supervised Fine-Tuning (SFT) o l'ottimizzazione diretta delle preferenze (DPO), migliora significativamente l'allineamento con le preferenze umane, mantenendo o migliorando le prestazioni sui benchmark standard di VQA e preservando le loro capacità fondamentali. I nostri dataset, benchmark, codice e checkpoint sono stati rilasciati su https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs)
have primarily focused on enhancing foundational capabilities, leaving a
significant gap in human preference alignment. This paper introduces
OmniAlign-V, a comprehensive dataset of 200K high-quality training samples
featuring diverse images, complex questions, and varied response formats to
improve MLLMs' alignment with human preferences. We also present MM-AlignBench,
a human-annotated benchmark specifically designed to evaluate MLLMs' alignment
with human values. Experimental results show that finetuning MLLMs with
OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference
Optimization (DPO), significantly enhances human preference alignment while
maintaining or enhancing performance on standard VQA benchmarks, preserving
their fundamental capabilities. Our datasets, benchmark, code and checkpoints
have been released at https://github.com/PhoenixZ810/OmniAlign-V.Summary
AI-Generated Summary