OmniAlign-V : Vers un alignement amélioré des MLLM avec les préférences humaines
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
February 25, 2025
Auteurs: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI
Résumé
Les récents progrès dans les modèles de langage multi-modaux open-source (MLLMs)
se sont principalement concentrés sur l'amélioration des capacités fondamentales,
laissant un écart important en matière d'alignement avec les préférences humaines.
Cet article présente OmniAlign-V, un ensemble de données complet de 200 000
échantillons d'entraînement de haute qualité, comprenant des images variées, des
questions complexes et des formats de réponse diversifiés, visant à améliorer
l'alignement des MLLMs avec les préférences humaines. Nous introduisons également
MM-AlignBench, un benchmark annoté par des humains spécialement conçu pour évaluer
l'alignement des MLLMs avec les valeurs humaines. Les résultats expérimentaux
montrent que le fine-tuning des MLLMs avec OmniAlign-V, en utilisant le
Supervised Fine-Tuning (SFT) ou l'Optimisation Directe des Préférences (DPO),
améliore significativement l'alignement avec les préférences humaines tout en
maintenant ou en améliorant les performances sur les benchmarks standards de
réponse à des questions visuelles (VQA), préservant ainsi leurs capacités
fondamentales. Nos ensembles de données, benchmark, code et points de contrôle
ont été publiés à l'adresse https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs)
have primarily focused on enhancing foundational capabilities, leaving a
significant gap in human preference alignment. This paper introduces
OmniAlign-V, a comprehensive dataset of 200K high-quality training samples
featuring diverse images, complex questions, and varied response formats to
improve MLLMs' alignment with human preferences. We also present MM-AlignBench,
a human-annotated benchmark specifically designed to evaluate MLLMs' alignment
with human values. Experimental results show that finetuning MLLMs with
OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference
Optimization (DPO), significantly enhances human preference alignment while
maintaining or enhancing performance on standard VQA benchmarks, preserving
their fundamental capabilities. Our datasets, benchmark, code and checkpoints
have been released at https://github.com/PhoenixZ810/OmniAlign-V.Summary
AI-Generated Summary