ChatPaper.aiChatPaper

マルチモーダル数学的推論のベンチマーキング:明示的な視覚的依存性を考慮して

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

April 24, 2025
著者: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI

要旨

大規模視覚言語モデル(LVLM)の最近の進展により、視覚情報と言語情報を統合する能力が大幅に向上し、物体認識、キャプション生成、視覚的質問応答などのタスクにおいて人間に近い熟練度を達成しています。しかし、現在のベンチマークは、特定の領域における専門知識を評価する知識中心の評価に焦点を当てることが多く、基本的な数学的要素や視覚的概念について推論する核心的な能力を見落としがちです。私たちは、明示的な視覚的依存関係を必要とする初歩レベルの数学問題を評価する際のギャップを特定しました。これらの問題では、モデルが複数の画像を識別し、統合し、推論する能力に加えて、常識的知識を取り入れることが求められます。これらは、より広範な人工汎用知能(AGI)能力に向けた進歩において重要な要素です。このギャップを埋めるため、明示的な視覚的依存関係を伴う多モーダル数学推論のための包括的なベンチマーク「VCBENCH」を導入します。VCBENCHは、6つの認知領域にわたる1,720の問題を含み、6,697枚の画像(平均1問あたり3.9枚)を特徴とし、複数画像にわたる推論を保証します。私たちは、26の最先端LVLMをVCBENCHで評価し、大幅な性能差を明らかにしました。トップモデルでさえ50%の精度を超えることができませんでした。私たちの調査結果は、視覚的数学的統合における継続的な課題を浮き彫りにし、今後のLVLMの進展に向けた道筋を示唆しています。
English
Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.

Summary

AI-Generated Summary

PDF92April 29, 2025