ChatPaper.aiChatPaper

Benchmarken van Multimodale Wiskundige Redenering met Expliciete Visuele Afhankelijkheid

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

April 24, 2025
Auteurs: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI

Samenvatting

Recente vooruitgang in Grote Visueel-Taalmodellen (LVLMs) heeft hun vermogen om visuele en linguïstische informatie te integreren aanzienlijk verbeterd, waardoor ze bijna menselijke vaardigheid bereiken in taken zoals objectherkenning, beeldbeschrijving en visuele vraagbeantwoording. Huidige benchmarks richten zich echter meestal op kennisgerichte evaluaties die domeinspecifieke expertise beoordelen, waarbij vaak het kernvermogen om te redeneren over fundamentele wiskundige elementen en visuele concepten wordt verwaarloosd. Wij identificeren een gat in de evaluatie van elementaire wiskundige problemen, die afhankelijk zijn van expliciete visuele relaties—waarbij modellen moeten onderscheiden, integreren en redeneren over meerdere afbeeldingen terwijl ze algemene kennis incorporeren, wat allemaal cruciaal is voor het bevorderen van bredere AGI-capaciteiten. Om dit gat te dichten, introduceren we VCBENCH, een uitgebreide benchmark voor multimodale wiskundige redenering met expliciete visuele afhankelijkheden. VCBENCH omvat 1.720 problemen verdeeld over zes cognitieve domeinen, met 6.697 afbeeldingen (gemiddeld 3,9 per vraag) om redenering over meerdere afbeeldingen te waarborgen. We evalueren 26 state-of-the-art LVLMs op VCBENCH, wat aanzienlijke prestatieverschillen aan het licht brengt, waarbij zelfs de beste modellen niet meer dan 50% nauwkeurigheid kunnen behalen. Onze bevindingen benadrukken de voortdurende uitdagingen in visueel-wiskundige integratie en suggereren richtingen voor toekomstige LVLM-ontwikkelingen.
English
Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.

Summary

AI-Generated Summary

PDF92April 29, 2025