Benchmarking der Multi-Bild-Verarbeitung in Seh- und Sprachmodellen: Wahrnehmung, Wissen, Schlussfolgerung und Mehrfach-Hop-Schlussfolgerung

papers.abstract

Der Fortschritt großer Sprachmodelle (LLMs) hat das Anwendungsspektrum in der natürlichen Sprachverarbeitung erheblich erweitert, wobei Multi-Modal-LMMs diese Fähigkeiten erweitern, um visuelle Daten zu integrieren und zu interpretieren. Allerdings konzentrieren sich bestehende Benchmarks für visuelle Sprachmodelle (VLMs) hauptsächlich auf Einzelbild-Eingaben und vernachlässigen den entscheidenden Aspekt des Verstehens von Multi-Bildern. In diesem Paper stellen wir einen Multi-Bild-Relationen-Benchmark MIRB vor, der entwickelt wurde, um die Fähigkeit von VLMs zu vergleichen, zu analysieren und über mehrere Bilder hinweg zu argumentieren. Unser Benchmark umfasst vier Kategorien: Wahrnehmung, visuelles Weltwissen, Argumentation und mehrstufige Argumentation. Durch eine umfassende Bewertung einer Vielzahl von Open-Source- und Closed-Source-Modellen zeigen wir, dass Open-Source-VLMs zwar gezeigt haben, dass sie sich in Einzelbild-Aufgaben der Leistung von GPT-4V annähern, jedoch eine signifikante Leistungslücke bei Multi-Bild-Argumentationsaufgaben besteht. Unsere Ergebnisse zeigen auch, dass selbst das modernste GPT-4V-Modell mit unserem Benchmark zu kämpfen hat, was die Notwendigkeit weiterer Forschung und Entwicklung in diesem Bereich unterstreicht. Wir glauben, dass unser Beitrag des MIRB als Testumgebung für die Entwicklung von Multi-Modal-Modellen der nächsten Generation dienen könnte.

English

The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.

Benchmarking der Multi-Bild-Verarbeitung in Seh- und Sprachmodellen: Wahrnehmung, Wissen, Schlussfolgerung und Mehrfach-Hop-Schlussfolgerung

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

papers.abstract

Support