Benchmarken van Multi-Beeldbegrip in Visie- en Taalmodellen: Waarneming, Kennis, Redeneren en Multi-Hop Redeneren
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
Auteurs: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
Samenvatting
De vooruitgang van grote taalmodellen (LLMs) heeft het toepassingsbereik van natuurlijke taalverwerking aanzienlijk uitgebreid, waarbij multi-modale LLMs deze mogelijkheden uitbreiden om visuele data te integreren en te interpreteren. Bestaande benchmarks voor visuele taalmodellen (VLMs) richten zich echter voornamelijk op invoer van één enkele afbeelding, waarbij het cruciale aspect van het begrijpen van meerdere afbeeldingen wordt verwaarloosd. In dit artikel introduceren we een Multi-Image Relational Benchmark (MIRB), ontworpen om het vermogen van VLMs te evalueren om meerdere afbeeldingen te vergelijken, analyseren en redeneren. Onze benchmark omvat vier categorieën: perceptie, visuele wereldkennis, redeneren en multi-hop redeneren. Door een uitgebreide evaluatie van een breed scala aan open-source en closed-source modellen, tonen we aan dat hoewel open-source VLMs de prestaties van GPT-4V benaderden in taken met één afbeelding, er een aanzienlijk prestatieverschil blijft bestaan in taken met meerdere afbeeldingen. Onze bevindingen laten ook zien dat zelfs het state-of-the-art GPT-4V-model moeite heeft met onze benchmark, wat de noodzaak van verder onderzoek en ontwikkeling op dit gebied onderstreept. Wij geloven dat onze bijdrage van MIRB kan dienen als een testomgeving voor de ontwikkeling van de volgende generatie multi-modale modellen.
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.