ChatPaper.aiChatPaper

OmniAlign-V: Auf dem Weg zu einer verbesserten Ausrichtung von MLLMs an menschlichen Präferenzen

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference

February 25, 2025
Autoren: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen
cs.AI

Zusammenfassung

Jüngste Fortschritte bei Open-Source-Multi-Modalen Großen Sprachmodellen (MLLMs) haben sich hauptsächlich auf die Verbesserung grundlegender Fähigkeiten konzentriert, wodurch eine erhebliche Lücke in der Ausrichtung auf menschliche Präferenzen entstanden ist. Dieses Papier stellt OmniAlign-V vor, einen umfassenden Datensatz mit 200.000 hochwertigen Trainingsbeispielen, die vielfältige Bilder, komplexe Fragen und unterschiedliche Antwortformate enthalten, um die Ausrichtung von MLLMs auf menschliche Präferenzen zu verbessern. Wir präsentieren außerdem MM-AlignBench, einen von Menschen annotierten Benchmark, der speziell zur Bewertung der Ausrichtung von MLLMs auf menschliche Werte entwickelt wurde. Experimentelle Ergebnisse zeigen, dass das Feinabstimmen von MLLMs mit OmniAlign-V, entweder durch Supervised Fine-Tuning (SFT) oder Direct Preference Optimization (DPO), die Ausrichtung auf menschliche Präferenzen signifikant verbessert, während die Leistung auf standardmäßigen VQA-Benchmarks erhalten bleibt oder sogar gesteigert wird, wodurch ihre grundlegenden Fähigkeiten bewahrt werden. Unsere Datensätze, Benchmarks, Code und Checkpoints wurden unter https://github.com/PhoenixZ810/OmniAlign-V veröffentlicht.
English
Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.

Summary

AI-Generated Summary

PDF732February 26, 2025