MMIU: Multimodale Multi-Bild-Verständnis zur Bewertung großer Vision-Sprachmodelle
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
August 5, 2024
Autoren: Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao
cs.AI
Zusammenfassung
Die Fähigkeit, mehrere Bilder zu verarbeiten, ist entscheidend für Large Vision-Language Models (LVLMs), um ein gründlicheres und nuancierteres Verständnis einer Szene zu entwickeln. Kürzlich haben Multi-Image LVLMs begonnen, auf diese Anforderung einzugehen. Allerdings ist ihre Bewertung mit ihrer Entwicklung nicht Schritt gehalten. Um diese Lücke zu schließen, führen wir das Multimodal Multi-image Understanding (MMIU) Benchmark ein, eine umfassende Bewertungssuite, die entwickelt wurde, um LVLMs über eine Vielzahl von Multi-Image-Aufgaben zu bewerten. MMIU umfasst 7 Arten von Multi-Image-Beziehungen, 52 Aufgaben, 77.000 Bilder und 11.000 sorgfältig kuratierte Multiple-Choice-Fragen, was es zum umfangreichsten Benchmark seiner Art macht. Unsere Bewertung von 24 beliebten LVLMs, einschließlich sowohl Open-Source als auch proprietärer Modelle, zeigt signifikante Herausforderungen bei der Multi-Image-Verständnis, insbesondere bei Aufgaben, die räumliches Verständnis erfordern. Selbst die fortschrittlichsten Modelle, wie z.B. GPT-4o, erreichen nur eine Genauigkeit von 55,7% bei MMIU. Durch vielschichtige analytische Experimente identifizieren wir Schlüsselleistungsunterschiede und -beschränkungen und liefern wertvolle Erkenntnisse für zukünftige Modell- und Datenverbesserungen. Wir streben danach, dass MMIU die Grenzen der LVLM-Forschung und -entwicklung vorantreibt und uns auf dem Weg zu anspruchsvollen multimodalen Multi-Image-Benutzerinteraktionen voranbringt.
English
The capability to process multiple images is crucial for Large
Vision-Language Models (LVLMs) to develop a more thorough and nuanced
understanding of a scene. Recent multi-image LVLMs have begun to address this
need. However, their evaluation has not kept pace with their development. To
fill this gap, we introduce the Multimodal Multi-image Understanding (MMIU)
benchmark, a comprehensive evaluation suite designed to assess LVLMs across a
wide range of multi-image tasks. MMIU encompasses 7 types of multi-image
relationships, 52 tasks, 77K images, and 11K meticulously curated
multiple-choice questions, making it the most extensive benchmark of its kind.
Our evaluation of 24 popular LVLMs, including both open-source and proprietary
models, reveals significant challenges in multi-image comprehension,
particularly in tasks involving spatial understanding. Even the most advanced
models, such as GPT-4o, achieve only 55.7% accuracy on MMIU. Through
multi-faceted analytical experiments, we identify key performance gaps and
limitations, providing valuable insights for future model and data
improvements. We aim for MMIU to advance the frontier of LVLM research and
development, moving us toward achieving sophisticated multimodal multi-image
user interactions.Summary
AI-Generated Summary