マルチイメージ理解のベンチマーキング:視覚と言語モデルにおける 知覚、知識、推論、マルチホップ推論
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
著者: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
要旨
大規模言語モデル(LLMs)の進展により、自然言語処理の応用範囲が大幅に拡大し、マルチモーダルLLMsはこれらの能力を視覚データの統合と解釈にまで拡張しています。しかし、既存の視覚言語モデル(VLMs)のベンチマークは主に単一画像の入力に焦点を当てており、複数画像の理解という重要な側面を無視しています。本論文では、複数画像を比較・分析・推論するVLMsの能力を評価するためのマルチイメージリレーショナルベンチマーク(MIRB)を紹介します。私たちのベンチマークは、知覚、視覚的世界知識、推論、マルチホップ推論の4つのカテゴリを網羅しています。オープンソースおよびクローズドソースの多様なモデルを包括的に評価した結果、オープンソースのVLMsは単一画像タスクにおいてGPT-4Vの性能に近づいているものの、複数画像推論タスクでは依然として大きな性能差があることが明らかになりました。また、最先端のGPT-4Vモデルでさえ私たちのベンチマークに苦戦する様子が観察され、この分野におけるさらなる研究開発の必要性が浮き彫りになりました。私たちは、MIRBの貢献が次世代マルチモーダルモデル開発のためのテストベッドとして役立つことを期待しています。
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.Summary
AI-Generated Summary