Évaluation des modèles de vision et de langage pour la compréhension multi-images : Perception, Connaissance, Raisonnement et Raisonnement à sauts multiples
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
Auteurs: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
Résumé
L'avancée des grands modèles de langage (LLMs) a considérablement élargi le champ des applications en traitement du langage naturel, avec les LLMs multi-modaux étendant ces capacités pour intégrer et interpréter des données visuelles. Cependant, les benchmarks existants pour les modèles de langage visuel (VLMs) se concentrent principalement sur des entrées d'image unique, négligeant l'aspect crucial de la compréhension multi-images. Dans cet article, nous introduisons un benchmark relationnel multi-images, MIRB, conçu pour évaluer la capacité des VLMs à comparer, analyser et raisonner sur plusieurs images. Notre benchmark englobe quatre catégories : perception, connaissances du monde visuel, raisonnement et raisonnement multi-étapes. À travers une évaluation approfondie d'une large gamme de modèles open-source et propriétaires, nous démontrons que bien que les VLMs open-source aient montré des performances approchant celles de GPT-4V dans les tâches d'image unique, un écart de performance significatif persiste dans les tâches de raisonnement multi-images. Nos résultats révèlent également que même le modèle GPT-4V, à la pointe de la technologie, rencontre des difficultés avec notre benchmark, soulignant le besoin de recherches et de développements supplémentaires dans ce domaine. Nous croyons que notre contribution de MIRB pourrait servir de banc d'essai pour le développement de la prochaine génération de modèles multi-modaux.
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.Summary
AI-Generated Summary