マルチモーダル大規模言語モデル(MLLMs)の急速な進展に伴い、その評価はますます包括的になってきています。しかし、現実世界のアプリケーションにおける基礎的な能力として、長いマルチモーダルコンテンツを理解することは、まだ十分に探究されていません。本研究では、既存のMLLMsが長いマルチモーダルドキュメントを理解する能力を体系的に評価するために特別に設計された最初のベンチマークである「Needle In A Multimodal Haystack(MM-NIAH)」を提案します。私たちのベンチマークは、マルチモーダル検索、カウンティング、推論の3種類の評価タスクを含んでいます。各タスクでは、モデルは与えられたマルチモーダルドキュメント全体に散らばる異なるキー情報に基づいて質問に答える必要があります。主要なMLLMsをMM-NIAHで評価した結果、既存のモデルはこれらのタスク、特に視覚中心の評価において、まだ大幅な改善の余地があることがわかりました。本研究が、長いマルチモーダルドキュメント理解に関するさらなる研究のプラットフォームを提供し、MLLMsの進展に貢献することを願っています。コードとベンチマークはhttps://github.com/OpenGVLab/MM-NIAHで公開されています。
Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya