ChatPaper.aiChatPaper

MuirBench: 강건한 다중 이미지 이해를 위한 포괄적 벤치마크

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

June 13, 2024
저자: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI

초록

우리는 다중 이미지 이해 능력에 초점을 맞춘 포괄적인 벤치마크인 MuirBench를 소개한다. MuirBench는 장면 이해, 순서 배열 등 12가지 다양한 다중 이미지 작업으로 구성되며, 다중 뷰, 시간적 관계 등 10가지 범주의 다중 이미지 관계를 포함한다. 11,264개의 이미지와 2,600개의 객관식 질문으로 이루어진 MuirBench는 신뢰할 수 있는 평가를 위해 각 표준 인스턴스와 의미적으로 최소한의 차이만 있는 답변이 불가능한 변형을 쌍으로 구성하여 제작되었다. 최근 20개의 다중 모달 LLM을 대상으로 평가한 결과, GPT-4o와 Gemini Pro와 같은 최고 성능 모델들도 MuirBench를 해결하는 데 어려움을 겪으며 각각 68.0%와 49.3%의 정확도를 보였다. 단일 이미지로 훈련된 오픈소스 다중 모달 LLM들은 다중 이미지 질문에 일반화하기 어려워 33.3% 미만의 정확도를 보였다. 이러한 결과는 MuirBench가 단일 이미지를 넘어설 수 있는 다중 모달 LLM 개발을 촉진하는 데 있어서의 중요성을 강조하며, 향후 개선을 위한 잠재적 경로를 제시한다.
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.

Summary

AI-Generated Summary

PDF202December 6, 2024