ChatPaper.aiChatPaper

Valutazione delle Capacità di Comprensione Multi-Immagine nei Modelli di Visione e Linguaggio: Percezione, Conoscenza, Ragionamento e Ragionamento a Multipli Passaggi

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

June 18, 2024
Autori: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI

Abstract

Il progresso dei grandi modelli linguistici (LLM) ha ampliato significativamente l'ambito delle applicazioni nell'elaborazione del linguaggio naturale, con i modelli linguistici multi-modali che estendono queste capacità per integrare e interpretare dati visivi. Tuttavia, i benchmark esistenti per i modelli linguistici visivi (VLM) si concentrano principalmente su input a immagine singola, trascurando l'aspetto cruciale della comprensione multi-immagine. In questo articolo, introduciamo un benchmark relazionale multi-immagine, denominato MIRB, progettato per valutare la capacità dei VLM di confrontare, analizzare e ragionare su più immagini. Il nostro benchmark comprende quattro categorie: percezione, conoscenza del mondo visivo, ragionamento e ragionamento multi-hop. Attraverso una valutazione completa di un'ampia gamma di modelli open-source e proprietari, dimostriamo che, sebbene i VLM open-source si siano avvicinati alle prestazioni di GPT-4V nei compiti a immagine singola, rimane un divario significativo nelle prestazioni nei compiti di ragionamento multi-immagine. Le nostre scoperte rivelano inoltre che anche il modello all'avanguardia GPT-4V fatica con il nostro benchmark, sottolineando la necessità di ulteriori ricerche e sviluppi in questo settore. Crediamo che il nostro contributo con MIRB possa servire come banco di prova per lo sviluppo della prossima generazione di modelli multi-modali.
English
The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.
PDF155February 7, 2026