Évaluation des Raisonnements Mathématiques Multimodaux avec Dépendance Visuelle Explicite
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
April 24, 2025
Auteurs: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI
Résumé
Les récentes avancées dans les modèles de vision et langage de grande envergure (LVLMs) ont considérablement amélioré leur capacité à intégrer des informations visuelles et linguistiques, atteignant une compétence quasi humaine dans des tâches telles que la reconnaissance d'objets, la génération de légendes et la réponse à des questions visuelles. Cependant, les benchmarks actuels se concentrent généralement sur des évaluations centrées sur les connaissances qui mesurent l'expertise dans des domaines spécifiques, négligeant souvent la capacité fondamentale à raisonner sur des éléments mathématiques et des concepts visuels de base. Nous identifions un manque dans l'évaluation des problèmes mathématiques de niveau élémentaire, qui reposent sur des dépendances visuelles explicites, nécessitant que les modèles discernent, intègrent et raisonnent à travers plusieurs images tout en incorporant des connaissances de bon sens, éléments cruciaux pour progresser vers des capacités d'AGI plus larges. Pour combler cette lacune, nous introduisons VCBENCH, un benchmark complet pour le raisonnement mathématique multimodal avec des dépendances visuelles explicites. VCBENCH comprend 1 720 problèmes répartis dans six domaines cognitifs, incluant 6 697 images (en moyenne 3,9 par question) pour garantir un raisonnement multi-image. Nous évaluons 26 LVLMs de pointe sur VCBENCH, révélant des disparités de performance substantielles, avec même les meilleurs modèles incapables de dépasser 50 % de précision. Nos résultats mettent en lumière les défis persistants dans l'intégration visuo-mathématique et suggèrent des pistes pour les futures avancées des LVLMs.
English
Recent advancements in Large Vision-Language Models (LVLMs) have
significantly enhanced their ability to integrate visual and linguistic
information, achieving near-human proficiency in tasks like object recognition,
captioning, and visual question answering. However, current benchmarks
typically focus on knowledge-centric evaluations that assess domain-specific
expertise, often neglecting the core ability to reason about fundamental
mathematical elements and visual concepts. We identify a gap in evaluating
elementary-level math problems, which rely on explicit visual
dependencies-requiring models to discern, integrate, and reason across multiple
images while incorporating commonsense knowledge, all of which are crucial for
advancing toward broader AGI capabilities. To address this gap, we introduce
VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with
explicit visual dependencies. VCBENCH includes 1,720 problems across six
cognitive domains, featuring 6,697 images (averaging 3.9 per question) to
ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH,
revealing substantial performance disparities, with even the top models unable
to exceed 50% accuracy. Our findings highlight the ongoing challenges in
visual-mathematical integration and suggest avenues for future LVLM
advancements.Summary
AI-Generated Summary