다중모달 건초더미 속의 바늘
Needle In A Multimodal Haystack
June 11, 2024
저자: Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
cs.AI
초록
다중모달 대형 언어 모델(MLLMs)의 급속한 발전과 함께, 이들의 평가는 점점 더 포괄적으로 이루어지고 있습니다. 그러나 실제 응용 프로그램을 위한 기초 능력으로서의 긴 다중모달 콘텐츠 이해는 여전히 충분히 탐구되지 않고 있습니다. 본 연구에서는 기존 MLLMs의 긴 다중모달 문서 이해 능력을 체계적으로 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 Needle In A Multimodal Haystack(MM-NIAH)를 소개합니다. 우리의 벤치마크는 다중모달 검색, 카운팅, 추론의 세 가지 유형의 평가 작업을 포함합니다. 각 작업에서 모델은 주어진 다중모달 문서 전반에 걸쳐 흩어져 있는 다양한 핵심 정보에 따라 질문에 답해야 합니다. MM-NIAH에서 선도적인 MLLMs를 평가한 결과, 기존 모델들은 특히 시각 중심 평가에서 이러한 작업에 대해 상당한 개선의 여지가 있음을 관찰했습니다. 이 작업이 긴 다중모달 문서 이해에 대한 추가 연구를 위한 플랫폼을 제공하고 MLLMs의 발전에 기여하기를 바랍니다. 코드와 벤치마크는 https://github.com/OpenGVLab/MM-NIAH에서 공개되었습니다.
English
With the rapid advancement of multimodal large language models (MLLMs), their
evaluation has become increasingly comprehensive. However, understanding long
multimodal content, as a foundational ability for real-world applications,
remains underexplored. In this work, we present Needle In A Multimodal Haystack
(MM-NIAH), the first benchmark specifically designed to systematically evaluate
the capability of existing MLLMs to comprehend long multimodal documents. Our
benchmark includes three types of evaluation tasks: multimodal retrieval,
counting, and reasoning. In each task, the model is required to answer the
questions according to different key information scattered throughout the given
multimodal document. Evaluating the leading MLLMs on MM-NIAH, we observe that
existing models still have significant room for improvement on these tasks,
especially on vision-centric evaluation. We hope this work can provide a
platform for further research on long multimodal document comprehension and
contribute to the advancement of MLLMs. Code and benchmark are released at
https://github.com/OpenGVLab/MM-NIAH.Summary
AI-Generated Summary