Evaluación Comparativa del Razonamiento Matemático Multimodal con Dependencia Visual Explícita

Resumen

Los recientes avances en los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han mejorado significativamente su capacidad para integrar información visual y lingüística, alcanzando una competencia cercana a la humana en tareas como el reconocimiento de objetos, la generación de descripciones y la respuesta a preguntas visuales. Sin embargo, los puntos de referencia actuales suelen centrarse en evaluaciones basadas en el conocimiento que miden la experiencia en dominios específicos, a menudo descuidando la capacidad fundamental de razonar sobre elementos matemáticos básicos y conceptos visuales. Identificamos una brecha en la evaluación de problemas matemáticos de nivel elemental, que dependen explícitamente de relaciones visuales, lo que requiere que los modelos discernan, integren y razonen a través de múltiples imágenes mientras incorporan conocimiento de sentido común, aspectos todos cruciales para avanzar hacia capacidades más amplias de AGI. Para abordar esta brecha, presentamos VCBENCH, un punto de referencia integral para el razonamiento matemático multimodal con dependencias visuales explícitas. VCBENCH incluye 1,720 problemas en seis dominios cognitivos, con 6,697 imágenes (un promedio de 3.9 por pregunta) para garantizar el razonamiento con múltiples imágenes. Evaluamos 26 LVLMs de última generación en VCBENCH, revelando disparidades significativas en el rendimiento, donde incluso los mejores modelos no superan el 50% de precisión. Nuestros hallazgos destacan los desafíos persistentes en la integración visual-matemática y sugieren vías para futuros avances en los LVLMs.

English

Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.