マルチモーダル干し草の山の中の針:マルチモーダル大規模言語モデルの長文脈能力のベンチマーキングMultimodal Needle in a Haystack: Benchmarking Long-Context Capability of
Multimodal Large Language Models
マルチモーダル大規模言語モデル(MLLMs)は、様々なアプリケーションにおいて大きな可能性を示しており、研究者や実務家の幅広い関心を集めています。しかし、その長文脈能力に関する包括的な評価は未だ十分に検討されていません。このギャップを埋めるため、我々はMLLMsの長文脈能力を評価するために特別に設計されたマルチモーダル針-in-a-干し草(MMNeedle)ベンチマークを導入します。複数画像の入力に加えて、画像のステッチングを用いて入力文脈の長さをさらに増やし、サブ画像レベルの検索のためのラベルを自動生成するプロトコルを開発しました。本質的に、MMNeedleは、テキスト指示と画像内容の説明に基づいて、一連の画像(干し草)の中からターゲットのサブ画像(針)を見つけ出す能力をストレステストすることでMLLMsを評価します。この設定は、広範な視覚的文脈の高度な理解と、長文脈画像入力内での効果的な情報検索を必要とします。このベンチマークを用いて、APIベースおよびオープンソースモデルを含む最先端のMLLMsを評価しました。その結果、GPT-4oが長文脈シナリオにおいて他のモデルを一貫して上回るものの、針が干し草の中にないネガティブサンプルにおいて幻覚問題に悩まされることが明らかになりました。我々のMLLMsの包括的な長文脈評価は、APIベースモデルとオープンソースモデルの間の大きな性能差にも光を当てています。主要な結果を再現するために必要なすべてのコード、データ、および手順は、https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack で公開されています。