MuirBench: Un Benchmark Completo per la Comprensione Robusta di Immagini Multiple
MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
June 13, 2024
Autori: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI
Abstract
Presentiamo MuirBench, un benchmark completo che si concentra sulle capacità robuste di comprensione multi-immagine dei modelli linguistici multimodali (LLM). MuirBench è composto da 12 task diversi di comprensione multi-immagine (ad esempio, comprensione della scena, ordinamento) che coinvolgono 10 categorie di relazioni tra immagini multiple (ad esempio, relazioni multiview, temporali). Con 11.264 immagini e 2.600 domande a scelta multipla, MuirBench è stato creato in modo accoppiato, dove ogni istanza standard è abbinata a una variante non risolvibile con differenze semantiche minime, al fine di garantire una valutazione affidabile. Valutato su 20 recenti LLM multimodali, i nostri risultati rivelano che anche i modelli con le migliori prestazioni come GPT-4o e Gemini Pro trovano difficile risolvere MuirBench, raggiungendo rispettivamente il 68,0% e il 49,3% di accuratezza. I LLM multimodali open-source addestrati su singole immagini difficilmente riescono a generalizzare alle domande multi-immagine, rimanendo al di sotto del 33,3% di accuratezza. Questi risultati sottolineano l'importanza di MuirBench nell'incoraggiare la comunità a sviluppare LLM multimodali in grado di andare oltre una singola immagine, suggerendo potenziali percorsi per miglioramenti futuri.
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust
multi-image understanding capabilities of multimodal LLMs. MuirBench consists
of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that
involve 10 categories of multi-image relations (e.g., multiview, temporal
relations). Comprising 11,264 images and 2,600 multiple-choice questions,
MuirBench is created in a pairwise manner, where each standard instance is
paired with an unanswerable variant that has minimal semantic differences, in
order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our
results reveal that even the best-performing models like GPT-4o and Gemini Pro
find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy.
Open-source multimodal LLMs trained on single images can hardly generalize to
multi-image questions, hovering below 33.3% in accuracy. These results
highlight the importance of MuirBench in encouraging the community to develop
multimodal LLMs that can look beyond a single image, suggesting potential
pathways for future improvements.