Aguja en un pajar multimodal
Needle In A Multimodal Haystack
June 11, 2024
Autores: Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
cs.AI
Resumen
Con el rápido avance de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), su evaluación se ha vuelto cada vez más exhaustiva. Sin embargo, la comprensión de contenido multimodal extenso, como una habilidad fundamental para aplicaciones del mundo real, sigue siendo poco explorada. En este trabajo, presentamos Needle In A Multimodal Haystack (MM-NIAH), el primer punto de referencia diseñado específicamente para evaluar sistemáticamente la capacidad de los MLLMs existentes para comprender documentos multimodales extensos. Nuestro punto de referencia incluye tres tipos de tareas de evaluación: recuperación multimodal, conteo y razonamiento. En cada tarea, el modelo debe responder a las preguntas según diferentes piezas clave de información dispersas a lo largo del documento multimodal proporcionado. Al evaluar los MLLMs líderes en MM-NIAH, observamos que los modelos existentes aún tienen un margen significativo de mejora en estas tareas, especialmente en la evaluación centrada en la visión. Esperamos que este trabajo pueda proporcionar una plataforma para futuras investigaciones sobre la comprensión de documentos multimodales extensos y contribuir al avance de los MLLMs. El código y el punto de referencia se publican en https://github.com/OpenGVLab/MM-NIAH.
English
With the rapid advancement of multimodal large language models (MLLMs), their
evaluation has become increasingly comprehensive. However, understanding long
multimodal content, as a foundational ability for real-world applications,
remains underexplored. In this work, we present Needle In A Multimodal Haystack
(MM-NIAH), the first benchmark specifically designed to systematically evaluate
the capability of existing MLLMs to comprehend long multimodal documents. Our
benchmark includes three types of evaluation tasks: multimodal retrieval,
counting, and reasoning. In each task, the model is required to answer the
questions according to different key information scattered throughout the given
multimodal document. Evaluating the leading MLLMs on MM-NIAH, we observe that
existing models still have significant room for improvement on these tasks,
especially on vision-centric evaluation. We hope this work can provide a
platform for further research on long multimodal document comprehension and
contribute to the advancement of MLLMs. Code and benchmark are released at
https://github.com/OpenGVLab/MM-NIAH.