ChatPaper.aiChatPaper

Valutazione del Ragionamento Matematico Multimodale con Dipendenze Visive Esplicite

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

April 24, 2025
Autori: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI

Abstract

I recenti progressi nei Modelli Linguistico-Visuali di Grande Scala (LVLM) hanno notevolmente migliorato la loro capacità di integrare informazioni visive e linguistiche, raggiungendo una competenza quasi umana in compiti come il riconoscimento di oggetti, la generazione di didascalie e la risposta a domande visive. Tuttavia, gli attuali benchmark si concentrano tipicamente su valutazioni centrate sulla conoscenza che valutano competenze specifiche di dominio, spesso trascurando la capacità fondamentale di ragionare su elementi matematici di base e concetti visivi. Identifichiamo una lacuna nella valutazione di problemi matematici di livello elementare, che si basano su dipendenze visive esplicite, richiedendo ai modelli di discernere, integrare e ragionare su più immagini incorporando conoscenze di senso comune, tutte abilità cruciali per progredire verso capacità AGI più ampie. Per colmare questa lacuna, introduciamo VCBENCH, un benchmark completo per il ragionamento matematico multimodale con dipendenze visive esplicite. VCBENCH include 1.720 problemi in sei domini cognitivi, con 6.697 immagini (in media 3,9 per domanda) per garantire il ragionamento su più immagini. Valutiamo 26 LVLM all'avanguardia su VCBENCH, rivelando sostanziali disparità di prestazioni, con i modelli migliori che non riescono a superare il 50% di accuratezza. I nostri risultati evidenziano le sfide persistenti nell'integrazione visivo-matematica e suggeriscono direzioni per futuri progressi nei LVLM.
English
Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.

Summary

AI-Generated Summary

PDF92April 29, 2025