ChatPaper.aiChatPaper

OmniAlign-V: Rumo a um Alinhamento Aprimorado de MLLMs com as Preferências Humanas

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

February 25, 2025
Autores: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI

Resumo

Os avanços recentes em modelos de linguagem multimodal de código aberto (MLLMs) têm se concentrado principalmente no aprimoramento de capacidades fundamentais, deixando uma lacuna significativa no alinhamento com as preferências humanas. Este artigo apresenta o OmniAlign-V, um conjunto de dados abrangente de 200 mil amostras de treinamento de alta qualidade, caracterizadas por imagens diversas, perguntas complexas e formatos variados de respostas, para melhorar o alinhamento dos MLLMs com as preferências humanas. Também apresentamos o MM-AlignBench, um benchmark anotado por humanos projetado especificamente para avaliar o alinhamento dos MLLMs com os valores humanos. Os resultados experimentais mostram que o ajuste fino de MLLMs com o OmniAlign-V, utilizando Ajuste Fino Supervisionado (SFT) ou Otimização de Preferência Direta (DPO), melhora significativamente o alinhamento com as preferências humanas, mantendo ou aprimorando o desempenho em benchmarks padrão de VQA, preservando suas capacidades fundamentais. Nossos conjuntos de dados, benchmark, código e checkpoints foram disponibilizados em https://github.com/PhoenixZ810/OmniAlign-V.
English
Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

Summary

AI-Generated Summary

PDF732February 26, 2025