MuirBench: Un Benchmark Completo per la Comprensione Robusta di Immagini Multiple

Abstract

Presentiamo MuirBench, un benchmark completo che si concentra sulle capacità robuste di comprensione multi-immagine dei modelli linguistici multimodali (LLM). MuirBench è composto da 12 task diversi di comprensione multi-immagine (ad esempio, comprensione della scena, ordinamento) che coinvolgono 10 categorie di relazioni tra immagini multiple (ad esempio, relazioni multiview, temporali). Con 11.264 immagini e 2.600 domande a scelta multipla, MuirBench è stato creato in modo accoppiato, dove ogni istanza standard è abbinata a una variante non risolvibile con differenze semantiche minime, al fine di garantire una valutazione affidabile. Valutato su 20 recenti LLM multimodali, i nostri risultati rivelano che anche i modelli con le migliori prestazioni come GPT-4o e Gemini Pro trovano difficile risolvere MuirBench, raggiungendo rispettivamente il 68,0% e il 49,3% di accuratezza. I LLM multimodali open-source addestrati su singole immagini difficilmente riescono a generalizzare alle domande multi-immagine, rimanendo al di sotto del 33,3% di accuratezza. Questi risultati sottolineano l'importanza di MuirBench nell'incoraggiare la comunità a sviluppare LLM multimodali in grado di andare oltre una singola immagine, suggerendo potenziali percorsi per miglioramenti futuri.

English

We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.

MuirBench: Un Benchmark Completo per la Comprensione Robusta di Immagini Multiple

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Abstract

Support