Benchmarking multimodales mathematisches Denken mit expliziter visueller Abhängigkeit
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
April 24, 2025
Autoren: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) haben deren Fähigkeit, visuelle und sprachliche Informationen zu integrieren, erheblich verbessert, was zu nahezu menschlicher Kompetenz in Aufgaben wie Objekterkennung, Bildbeschreibung und visueller Fragebeantwortung führt. Aktuelle Benchmarks konzentrieren sich jedoch typischerweise auf wissenszentrierte Bewertungen, die domänenspezifische Expertise bewerten, und vernachlässigen oft die Kernfähigkeit, grundlegende mathematische Elemente und visuelle Konzepte zu verstehen. Wir identifizieren eine Lücke bei der Bewertung von mathematischen Problemen auf elementarem Niveau, die explizite visuelle Abhängigkeiten erfordern – Modelle müssen dabei mehrere Bilder erkennen, integrieren und darüber schlussfolgern, während sie Alltagswissen einbeziehen, was alles entscheidend für die Weiterentwicklung hin zu breiteren Fähigkeiten der künstlichen allgemeinen Intelligenz (AGI) ist. Um diese Lücke zu schließen, führen wir VCBENCH ein, einen umfassenden Benchmark für multimodales mathematisches Denken mit expliziten visuellen Abhängigkeiten. VCBENCH umfasst 1.720 Probleme aus sechs kognitiven Domänen, die 6.697 Bilder (durchschnittlich 3,9 pro Frage) enthalten, um die Schlussfolgerung über mehrere Bilder sicherzustellen. Wir bewerten 26 state-of-the-art LVLMs auf VCBENCH und zeigen erhebliche Leistungsunterschiede auf, wobei selbst die besten Modelle eine Genauigkeit von 50 % nicht überschreiten können. Unsere Ergebnisse unterstreichen die anhaltenden Herausforderungen bei der visuell-mathematischen Integration und weisen auf zukünftige Entwicklungsmöglichkeiten für LVLMs hin.
English
Recent advancements in Large Vision-Language Models (LVLMs) have
significantly enhanced their ability to integrate visual and linguistic
information, achieving near-human proficiency in tasks like object recognition,
captioning, and visual question answering. However, current benchmarks
typically focus on knowledge-centric evaluations that assess domain-specific
expertise, often neglecting the core ability to reason about fundamental
mathematical elements and visual concepts. We identify a gap in evaluating
elementary-level math problems, which rely on explicit visual
dependencies-requiring models to discern, integrate, and reason across multiple
images while incorporating commonsense knowledge, all of which are crucial for
advancing toward broader AGI capabilities. To address this gap, we introduce
VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with
explicit visual dependencies. VCBENCH includes 1,720 problems across six
cognitive domains, featuring 6,697 images (averaging 3.9 per question) to
ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH,
revealing substantial performance disparities, with even the top models unable
to exceed 50% accuracy. Our findings highlight the ongoing challenges in
visual-mathematical integration and suggest avenues for future LVLM
advancements.Summary
AI-Generated Summary