Avaliação da Compreensão de Múltiplas Imagens em Modelos de Visão e Linguagem: Percepção, Conhecimento, Raciocínio e Raciocínio Multi-Etapas
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
Autores: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
Resumo
O avanço dos grandes modelos de linguagem (LLMs) ampliou significativamente o escopo de aplicações em processamento de linguagem natural, com modelos multi-modais (LLMs) estendendo essas capacidades para integrar e interpretar dados visuais. No entanto, os benchmarks existentes para modelos de linguagem visual (VLMs) concentram-se predominantemente em entradas de imagem única, negligenciando o aspecto crucial do entendimento de múltiplas imagens. Neste artigo, introduzimos um Benchmark Relacional de Múltiplas Imagens (MIRB), projetado para avaliar a capacidade dos VLMs de comparar, analisar e raciocinar entre várias imagens. Nosso benchmark abrange quatro categorias: percepção, conhecimento do mundo visual, raciocínio e raciocínio multi-hop. Por meio de uma avaliação abrangente de uma ampla gama de modelos de código aberto e proprietários, demonstramos que, embora os VLMs de código aberto tenham se aproximado do desempenho do GPT-4V em tarefas de imagem única, uma lacuna significativa de desempenho permanece em tarefas de raciocínio com múltiplas imagens. Nossas descobertas também revelam que até mesmo o modelo GPT-4V, estado da arte, enfrenta dificuldades com nosso benchmark, destacando a necessidade de mais pesquisa e desenvolvimento nessa área. Acreditamos que nossa contribuição com o MIRB pode servir como um ambiente de teste para o desenvolvimento da próxima geração de modelos multi-modais.
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.