VisuLogic: マルチモーダル大規模言語モデルの視覚的推論能力を評価するためのベンチマークVisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal
Large Language Models
視覚的推論は人間の知性の中核をなす要素であり、高度なマルチモーダルモデルにとって重要な能力です。しかし、現在のマルチモーダル大規模言語モデル(MLLM)の推論評価は、テキスト記述に依存しがちで、言語ベースの推論ショートカットを許容しており、真の視覚中心の推論を測定できていません。この問題に対処するため、我々はVisuLogicを導入しました:これは6つのカテゴリ(例:量的変化、空間関係、属性比較)にわたる1,000の人間検証済み問題からなるベンチマークです。これらの多様なタイプの質問を評価することで、MLLMの視覚的推論能力を多角的に測定できます。我々は主要なMLLMをこのベンチマークで評価し、その結果を分析して共通の失敗パターンを特定しました。ほとんどのモデルは30%以下の精度しか達成できず、25%のランダムベースラインをわずかに上回るだけで、人間が達成した51.4%を大きく下回っており、視覚的推論における大きなギャップが明らかになりました。さらに、さらなる進展を支援するため、補助的なトレーニングデータセットと強化学習ベースラインを提供します。