Evaluación Comparativa del Razonamiento Matemático Multimodal con Dependencia Visual Explícita
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
April 24, 2025
Autores: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI
Resumen
Los recientes avances en los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han mejorado significativamente su capacidad para integrar información visual y lingüística, alcanzando una competencia cercana a la humana en tareas como el reconocimiento de objetos, la generación de descripciones y la respuesta a preguntas visuales. Sin embargo, los puntos de referencia actuales suelen centrarse en evaluaciones basadas en el conocimiento que miden la experiencia en dominios específicos, a menudo descuidando la capacidad fundamental de razonar sobre elementos matemáticos básicos y conceptos visuales. Identificamos una brecha en la evaluación de problemas matemáticos de nivel elemental, que dependen explícitamente de relaciones visuales, lo que requiere que los modelos discernan, integren y razonen a través de múltiples imágenes mientras incorporan conocimiento de sentido común, aspectos todos cruciales para avanzar hacia capacidades más amplias de AGI. Para abordar esta brecha, presentamos VCBENCH, un punto de referencia integral para el razonamiento matemático multimodal con dependencias visuales explícitas. VCBENCH incluye 1,720 problemas en seis dominios cognitivos, con 6,697 imágenes (un promedio de 3.9 por pregunta) para garantizar el razonamiento con múltiples imágenes. Evaluamos 26 LVLMs de última generación en VCBENCH, revelando disparidades significativas en el rendimiento, donde incluso los mejores modelos no superan el 50% de precisión. Nuestros hallazgos destacan los desafíos persistentes en la integración visual-matemática y sugieren vías para futuros avances en los LVLMs.
English
Recent advancements in Large Vision-Language Models (LVLMs) have
significantly enhanced their ability to integrate visual and linguistic
information, achieving near-human proficiency in tasks like object recognition,
captioning, and visual question answering. However, current benchmarks
typically focus on knowledge-centric evaluations that assess domain-specific
expertise, often neglecting the core ability to reason about fundamental
mathematical elements and visual concepts. We identify a gap in evaluating
elementary-level math problems, which rely on explicit visual
dependencies-requiring models to discern, integrate, and reason across multiple
images while incorporating commonsense knowledge, all of which are crucial for
advancing toward broader AGI capabilities. To address this gap, we introduce
VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with
explicit visual dependencies. VCBENCH includes 1,720 problems across six
cognitive domains, featuring 6,697 images (averaging 3.9 per question) to
ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH,
revealing substantial performance disparities, with even the top models unable
to exceed 50% accuracy. Our findings highlight the ongoing challenges in
visual-mathematical integration and suggest avenues for future LVLM
advancements.Summary
AI-Generated Summary