マルチモーダルな干し草の山の中の針
Needle In A Multimodal Haystack
June 11, 2024
著者: Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)の急速な進展に伴い、その評価はますます包括的になってきています。しかし、現実世界のアプリケーションにおける基礎的な能力として、長いマルチモーダルコンテンツを理解することは、まだ十分に探究されていません。本研究では、既存のMLLMsが長いマルチモーダルドキュメントを理解する能力を体系的に評価するために特別に設計された最初のベンチマークである「Needle In A Multimodal Haystack(MM-NIAH)」を提案します。私たちのベンチマークは、マルチモーダル検索、カウンティング、推論の3種類の評価タスクを含んでいます。各タスクでは、モデルは与えられたマルチモーダルドキュメント全体に散らばる異なるキー情報に基づいて質問に答える必要があります。主要なMLLMsをMM-NIAHで評価した結果、既存のモデルはこれらのタスク、特に視覚中心の評価において、まだ大幅な改善の余地があることがわかりました。本研究が、長いマルチモーダルドキュメント理解に関するさらなる研究のプラットフォームを提供し、MLLMsの進展に貢献することを願っています。コードとベンチマークはhttps://github.com/OpenGVLab/MM-NIAHで公開されています。
English
With the rapid advancement of multimodal large language models (MLLMs), their
evaluation has become increasingly comprehensive. However, understanding long
multimodal content, as a foundational ability for real-world applications,
remains underexplored. In this work, we present Needle In A Multimodal Haystack
(MM-NIAH), the first benchmark specifically designed to systematically evaluate
the capability of existing MLLMs to comprehend long multimodal documents. Our
benchmark includes three types of evaluation tasks: multimodal retrieval,
counting, and reasoning. In each task, the model is required to answer the
questions according to different key information scattered throughout the given
multimodal document. Evaluating the leading MLLMs on MM-NIAH, we observe that
existing models still have significant room for improvement on these tasks,
especially on vision-centric evaluation. We hope this work can provide a
platform for further research on long multimodal document comprehension and
contribute to the advancement of MLLMs. Code and benchmark are released at
https://github.com/OpenGVLab/MM-NIAH.Summary
AI-Generated Summary