OmniAlign-V : Vers un alignement amélioré des MLLM avec les préférences humaines

papers.abstract

Les récents progrès dans les modèles de langage multi-modaux open-source (MLLMs) se sont principalement concentrés sur l'amélioration des capacités fondamentales, laissant un écart important en matière d'alignement avec les préférences humaines. Cet article présente OmniAlign-V, un ensemble de données complet de 200 000 échantillons d'entraînement de haute qualité, comprenant des images variées, des questions complexes et des formats de réponse diversifiés, visant à améliorer l'alignement des MLLMs avec les préférences humaines. Nous introduisons également MM-AlignBench, un benchmark annoté par des humains spécialement conçu pour évaluer l'alignement des MLLMs avec les valeurs humaines. Les résultats expérimentaux montrent que le fine-tuning des MLLMs avec OmniAlign-V, en utilisant le Supervised Fine-Tuning (SFT) ou l'Optimisation Directe des Préférences (DPO), améliore significativement l'alignement avec les préférences humaines tout en maintenant ou en améliorant les performances sur les benchmarks standards de réponse à des questions visuelles (VQA), préservant ainsi leurs capacités fondamentales. Nos ensembles de données, benchmark, code et points de contrôle ont été publiés à l'adresse https://github.com/PhoenixZ810/OmniAlign-V.

English

Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

OmniAlign-V : Vers un alignement amélioré des MLLM avec les préférences humaines

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

papers.abstract

Support