ChatPaper.aiChatPaper

MuirBench: Un punto de referencia integral para la comprensión robusta de múltiples imágenes

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

June 13, 2024
Autores: Fei Wang, Xingyu Fu, James Y. Huang, Zekun Li, Qin Liu, Xiaogeng Liu, Mingyu Derek Ma, Nan Xu, Wenxuan Zhou, Kai Zhang, Tianyi Lorena Yan, Wenjie Jacky Mo, Hsiang-Hui Liu, Pan Lu, Chunyuan Li, Chaowei Xiao, Kai-Wei Chang, Dan Roth, Sheng Zhang, Hoifung Poon, Muhao Chen
cs.AI

Resumen

Presentamos MuirBench, un benchmark integral que se enfoca en las capacidades robustas de comprensión de múltiples imágenes en modelos de lenguaje multimodal (LLMs). MuirBench consta de 12 tareas diversas de múltiples imágenes (por ejemplo, comprensión de escenas, ordenamiento) que involucran 10 categorías de relaciones entre imágenes (por ejemplo, multivista, relaciones temporales). Compuesto por 11,264 imágenes y 2,600 preguntas de opción múltiple, MuirBench se crea de manera pareada, donde cada instancia estándar se empareja con una variante no respondible que tiene diferencias semánticas mínimas, con el fin de realizar una evaluación confiable. Evaluado en 20 LLMs multimodales recientes, nuestros resultados revelan que incluso los modelos con mejor desempeño, como GPT-4o y Gemini Pro, encuentran desafiante resolver MuirBench, alcanzando un 68.0% y un 49.3% de precisión. Los LLMs multimodales de código abierto entrenados en imágenes individuales apenas pueden generalizar a preguntas de múltiples imágenes, manteniéndose por debajo del 33.3% de precisión. Estos resultados resaltan la importancia de MuirBench para fomentar el desarrollo de LLMs multimodales que puedan ir más allá de una sola imagen, sugiriendo posibles vías para mejoras futuras.
English
We introduce MuirBench, a comprehensive benchmark that focuses on robust multi-image understanding capabilities of multimodal LLMs. MuirBench consists of 12 diverse multi-image tasks (e.g., scene understanding, ordering) that involve 10 categories of multi-image relations (e.g., multiview, temporal relations). Comprising 11,264 images and 2,600 multiple-choice questions, MuirBench is created in a pairwise manner, where each standard instance is paired with an unanswerable variant that has minimal semantic differences, in order for a reliable assessment. Evaluated upon 20 recent multi-modal LLMs, our results reveal that even the best-performing models like GPT-4o and Gemini Pro find it challenging to solve MuirBench, achieving 68.0% and 49.3% in accuracy. Open-source multimodal LLMs trained on single images can hardly generalize to multi-image questions, hovering below 33.3% in accuracy. These results highlight the importance of MuirBench in encouraging the community to develop multimodal LLMs that can look beyond a single image, suggesting potential pathways for future improvements.
PDF202December 6, 2024