ChatPaper.aiChatPaper

MuirBench: Комплексный бенчмарк для надежного многоизображенческого понимания

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

June 13, 2024
Авторы: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI

Аннотация

Мы представляем MuirBench, обширный бенчмарк, сосредоточенный на надежных мультимодальных LLM в области понимания нескольких изображений. MuirBench включает в себя 12 разнообразных мультимодальных задач (например, понимание сцены, упорядочение), включающих 10 категорий мультимодальных отношений (например, многозрительные, временные отношения). Состоящий из 11 264 изображений и 2 600 вопросов с выбором ответа, MuirBench создан попарно, где каждый стандартный экземпляр сопоставлен с вариантом, на который невозможно ответить, имеющим минимальные семантические различия, для надежной оценки. Оцененные на 20 недавних мультимодальных LLM, наши результаты показывают, что даже лучшие модели, такие как GPT-4o и Gemini Pro, испытывают трудности с решением MuirBench, достигая 68,0% и 49,3% точности. Мультимодальные LLM с открытым исходным кодом, обученные на одиночных изображениях, едва могут обобщиться на вопросы с несколькими изображениями, оставаясь ниже 33,3% точности. Эти результаты подчеркивают важность MuirBench в поощрении сообщества к разработке мультимодальных LLM, способных видеть за пределами одного изображения, предлагая потенциальные пути для будущих улучшений.
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.

Summary

AI-Generated Summary

PDF202December 6, 2024