ChatPaper.aiChatPaper

MMIU: Multimodale Multi-Bild-Verständnis zur Bewertung großer Vision-Sprachmodelle

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

August 5, 2024
Autoren: Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao
cs.AI

Zusammenfassung

Die Fähigkeit, mehrere Bilder zu verarbeiten, ist entscheidend für Large Vision-Language Models (LVLMs), um ein gründlicheres und nuancierteres Verständnis einer Szene zu entwickeln. Kürzlich haben Multi-Image LVLMs begonnen, auf diese Anforderung einzugehen. Allerdings ist ihre Bewertung mit ihrer Entwicklung nicht Schritt gehalten. Um diese Lücke zu schließen, führen wir das Multimodal Multi-image Understanding (MMIU) Benchmark ein, eine umfassende Bewertungssuite, die entwickelt wurde, um LVLMs über eine Vielzahl von Multi-Image-Aufgaben zu bewerten. MMIU umfasst 7 Arten von Multi-Image-Beziehungen, 52 Aufgaben, 77.000 Bilder und 11.000 sorgfältig kuratierte Multiple-Choice-Fragen, was es zum umfangreichsten Benchmark seiner Art macht. Unsere Bewertung von 24 beliebten LVLMs, einschließlich sowohl Open-Source als auch proprietärer Modelle, zeigt signifikante Herausforderungen bei der Multi-Image-Verständnis, insbesondere bei Aufgaben, die räumliches Verständnis erfordern. Selbst die fortschrittlichsten Modelle, wie z.B. GPT-4o, erreichen nur eine Genauigkeit von 55,7% bei MMIU. Durch vielschichtige analytische Experimente identifizieren wir Schlüsselleistungsunterschiede und -beschränkungen und liefern wertvolle Erkenntnisse für zukünftige Modell- und Datenverbesserungen. Wir streben danach, dass MMIU die Grenzen der LVLM-Forschung und -entwicklung vorantreibt und uns auf dem Weg zu anspruchsvollen multimodalen Multi-Image-Benutzerinteraktionen voranbringt.
English
The capability to process multiple images is crucial for Large Vision-Language Models (LVLMs) to develop a more thorough and nuanced understanding of a scene. Recent multi-image LVLMs have begun to address this need. However, their evaluation has not kept pace with their development. To fill this gap, we introduce the Multimodal Multi-image Understanding (MMIU) benchmark, a comprehensive evaluation suite designed to assess LVLMs across a wide range of multi-image tasks. MMIU encompasses 7 types of multi-image relationships, 52 tasks, 77K images, and 11K meticulously curated multiple-choice questions, making it the most extensive benchmark of its kind. Our evaluation of 24 popular LVLMs, including both open-source and proprietary models, reveals significant challenges in multi-image comprehension, particularly in tasks involving spatial understanding. Even the most advanced models, such as GPT-4o, achieve only 55.7% accuracy on MMIU. Through multi-faceted analytical experiments, we identify key performance gaps and limitations, providing valuable insights for future model and data improvements. We aim for MMIU to advance the frontier of LVLM research and development, moving us toward achieving sophisticated multimodal multi-image user interactions.

Summary

AI-Generated Summary

PDF623November 28, 2024