ChatPaper.aiChatPaper

VisuLogic: マルチモーダル大規模言語モデルの視覚的推論能力を評価するためのベンチマーク

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

April 21, 2025
著者: Weiye Xu, Jiahao Wang, Weiyun Wang, Zhe Chen, Wengang Zhou, Aijun Yang, Lewei Lu, Houqiang Li, Xiaohua Wang, Xizhou Zhu, Wenhai Wang, Jifeng Dai, Jinguo Zhu
cs.AI

要旨

視覚的推論は人間の知性の中核をなす要素であり、高度なマルチモーダルモデルにとって重要な能力です。しかし、現在のマルチモーダル大規模言語モデル(MLLM)の推論評価は、テキスト記述に依存しがちで、言語ベースの推論ショートカットを許容しており、真の視覚中心の推論を測定できていません。この問題に対処するため、我々はVisuLogicを導入しました:これは6つのカテゴリ(例:量的変化、空間関係、属性比較)にわたる1,000の人間検証済み問題からなるベンチマークです。これらの多様なタイプの質問を評価することで、MLLMの視覚的推論能力を多角的に測定できます。我々は主要なMLLMをこのベンチマークで評価し、その結果を分析して共通の失敗パターンを特定しました。ほとんどのモデルは30%以下の精度しか達成できず、25%のランダムベースラインをわずかに上回るだけで、人間が達成した51.4%を大きく下回っており、視覚的推論における大きなギャップが明らかになりました。さらに、さらなる進展を支援するため、補助的なトレーニングデータセットと強化学習ベースラインを提供します。
English
Visual reasoning is a core component of human intelligence and a critical capability for advanced multimodal models. Yet current reasoning evaluations of multimodal large language models (MLLMs) often rely on text descriptions and allow language-based reasoning shortcuts, failing to measure genuine vision-centric reasoning. To address this, we introduce VisuLogic: a benchmark of 1,000 human-verified problems across six categories (e.g., quantitative shifts, spatial relations, attribute comparisons). These various types of questions can be evaluated to assess the visual reasoning capabilities of MLLMs from multiple perspectives. We evaluate leading MLLMs on this benchmark and analyze their results to identify common failure modes. Most models score below 30% accuracy-only slightly above the 25% random baseline and far below the 51.4% achieved by humans-revealing significant gaps in visual reasoning. Furthermore, we provide a supplementary training dataset and a reinforcement-learning baseline to support further progress.

Summary

AI-Generated Summary

PDF712April 24, 2025