OmniAlign-V: Hacia una Mejor Alineación de los MLLM con las Preferencias Humanas
OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
February 25, 2025
Autores: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI
Resumen
Los avances recientes en los modelos de lenguaje multimodal de código abierto (MLLMs, por sus siglas en inglés) se han centrado principalmente en mejorar las capacidades fundamentales, dejando un vacío significativo en la alineación con las preferencias humanas. Este artículo presenta OmniAlign-V, un conjunto de datos integral de 200.000 muestras de entrenamiento de alta calidad que incluyen imágenes diversas, preguntas complejas y formatos de respuesta variados, con el objetivo de mejorar la alineación de los MLLMs con las preferencias humanas. También presentamos MM-AlignBench, un punto de referencia anotado por humanos diseñado específicamente para evaluar la alineación de los MLLMs con los valores humanos. Los resultados experimentales muestran que el ajuste fino de los MLLMs con OmniAlign-V, utilizando Ajuste Supervisado (SFT) u Optimización Directa de Preferencias (DPO), mejora significativamente la alineación con las preferencias humanas mientras mantiene o mejora el rendimiento en los puntos de referencia estándar de VQA, preservando sus capacidades fundamentales. Nuestros conjuntos de datos, punto de referencia, código y puntos de control han sido publicados en https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs)
have primarily focused on enhancing foundational capabilities, leaving a
significant gap in human preference alignment. This paper introduces
OmniAlign-V, a comprehensive dataset of 200K high-quality training samples
featuring diverse images, complex questions, and varied response formats to
improve MLLMs' alignment with human preferences. We also present MM-AlignBench,
a human-annotated benchmark specifically designed to evaluate MLLMs' alignment
with human values. Experimental results show that finetuning MLLMs with
OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference
Optimization (DPO), significantly enhances human preference alignment while
maintaining or enhancing performance on standard VQA benchmarks, preserving
their fundamental capabilities. Our datasets, benchmark, code and checkpoints
have been released at https://github.com/PhoenixZ810/OmniAlign-V.Summary
AI-Generated Summary