Benchmarking der Multi-Bild-Verarbeitung in Seh- und Sprachmodellen: Wahrnehmung, Wissen, Schlussfolgerung und Mehrfach-Hop-Schlussfolgerung
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
Autoren: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
Zusammenfassung
Der Fortschritt großer Sprachmodelle (LLMs) hat das Anwendungsspektrum in der natürlichen Sprachverarbeitung erheblich erweitert, wobei Multi-Modal-LMMs diese Fähigkeiten erweitern, um visuelle Daten zu integrieren und zu interpretieren. Allerdings konzentrieren sich bestehende Benchmarks für visuelle Sprachmodelle (VLMs) hauptsächlich auf Einzelbild-Eingaben und vernachlässigen den entscheidenden Aspekt des Verstehens von Multi-Bildern. In diesem Paper stellen wir einen Multi-Bild-Relationen-Benchmark MIRB vor, der entwickelt wurde, um die Fähigkeit von VLMs zu vergleichen, zu analysieren und über mehrere Bilder hinweg zu argumentieren. Unser Benchmark umfasst vier Kategorien: Wahrnehmung, visuelles Weltwissen, Argumentation und mehrstufige Argumentation. Durch eine umfassende Bewertung einer Vielzahl von Open-Source- und Closed-Source-Modellen zeigen wir, dass Open-Source-VLMs zwar gezeigt haben, dass sie sich in Einzelbild-Aufgaben der Leistung von GPT-4V annähern, jedoch eine signifikante Leistungslücke bei Multi-Bild-Argumentationsaufgaben besteht. Unsere Ergebnisse zeigen auch, dass selbst das modernste GPT-4V-Modell mit unserem Benchmark zu kämpfen hat, was die Notwendigkeit weiterer Forschung und Entwicklung in diesem Bereich unterstreicht. Wir glauben, dass unser Beitrag des MIRB als Testumgebung für die Entwicklung von Multi-Modal-Modellen der nächsten Generation dienen könnte.
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.Summary
AI-Generated Summary