ChatPaper.aiChatPaper

MuirBench: Een Uitgebreide Benchmark voor Robuust Begrip van Meerdere Afbeeldingen

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

June 13, 2024
Auteurs: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI

Samenvatting

We introduceren MuirBench, een uitgebreide benchmark die zich richt op robuuste multi-beeldbegripscapaciteiten van multimodale LLM's. MuirBench bestaat uit 12 diverse multi-beeldtaken (bijvoorbeeld scènebegrip, ordening) die 10 categorieën van multi-beeldrelaties omvatten (bijvoorbeeld multiview, temporele relaties). Met 11.264 afbeeldingen en 2.600 meerkeuzevragen is MuirBench op een paarsgewijze manier opgebouwd, waarbij elk standaardvoorbeeld wordt gekoppeld aan een onbeantwoordbare variant met minimale semantische verschillen, om een betrouwbare beoordeling mogelijk te maken. Geëvalueerd op 20 recente multimodale LLM's, tonen onze resultaten aan dat zelfs de best presterende modellen zoals GPT-4o en Gemini Pro het uitdagend vinden om MuirBench op te lossen, met een nauwkeurigheid van respectievelijk 68,0% en 49,3%. Open-source multimodale LLM's die getraind zijn op enkele afbeeldingen kunnen zich nauwelijks generaliseren naar multi-beeldvragen, met een nauwkeurigheid die onder de 33,3% blijft. Deze resultaten benadrukken het belang van MuirBench in het stimuleren van de gemeenschap om multimodale LLM's te ontwikkelen die verder kunnen kijken dan een enkele afbeelding, wat potentiële verbeteringsrichtingen voor de toekomst suggereert.
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
PDF192February 7, 2026