隨著多模態大型語言模型(MLLMs)的快速發展,它們的評估變得日益全面。然而,理解長篇多模態內容,作為現實應用的基礎能力,仍然未被充分探討。在這項工作中,我們提出了針對多模態大型語言模型理解長篇多模態文件能力的第一個基準測試,名為Needle In A Multimodal Haystack(MM-NIAH)。我們的基準測試包括三種類型的評估任務:多模態檢索、計數和推理。在每個任務中,模型需要根據給定的多模態文件中分散的不同關鍵信息來回答問題。通過在MM-NIAH上評估領先的MLLMs,我們觀察到現有模型在這些任務上仍有顯著的改進空間,特別是在以視覺為中心的評估上。我們希望這項工作能為進一步研究長篇多模態文件理解提供平台,並有助於推動MLLMs的發展。代碼和基準測試已在https://github.com/OpenGVLab/MM-NIAH 上發布。
Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya