Évaluation des modèles de vision et de langage pour la compréhension multi-images : Perception, Connaissance, Raisonnement et Raisonnement à sauts multiples

papers.abstract

L'avancée des grands modèles de langage (LLMs) a considérablement élargi le champ des applications en traitement du langage naturel, avec les LLMs multi-modaux étendant ces capacités pour intégrer et interpréter des données visuelles. Cependant, les benchmarks existants pour les modèles de langage visuel (VLMs) se concentrent principalement sur des entrées d'image unique, négligeant l'aspect crucial de la compréhension multi-images. Dans cet article, nous introduisons un benchmark relationnel multi-images, MIRB, conçu pour évaluer la capacité des VLMs à comparer, analyser et raisonner sur plusieurs images. Notre benchmark englobe quatre catégories : perception, connaissances du monde visuel, raisonnement et raisonnement multi-étapes. À travers une évaluation approfondie d'une large gamme de modèles open-source et propriétaires, nous démontrons que bien que les VLMs open-source aient montré des performances approchant celles de GPT-4V dans les tâches d'image unique, un écart de performance significatif persiste dans les tâches de raisonnement multi-images. Nos résultats révèlent également que même le modèle GPT-4V, à la pointe de la technologie, rencontre des difficultés avec notre benchmark, soulignant le besoin de recherches et de développements supplémentaires dans ce domaine. Nous croyons que notre contribution de MIRB pourrait servir de banc d'essai pour le développement de la prochaine génération de modèles multi-modaux.

English

The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.

Évaluation des modèles de vision et de langage pour la compréhension multi-images : Perception, Connaissance, Raisonnement et Raisonnement à sauts multiples

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

papers.abstract

Support