Бенчмаркинг мультимодального математического мышления с явной визуальной зависимостью
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency
April 24, 2025
Авторы: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI
Аннотация
Последние достижения в области крупномасштабных визуально-языковых моделей (LVLM) значительно улучшили их способность интегрировать визуальную и лингвистическую информацию, приблизившись к человеческому уровню в таких задачах, как распознавание объектов, создание описаний и ответы на вопросы по изображениям. Однако современные тесты обычно сосредоточены на оценке знаний в конкретных областях, часто упуская из виду ключевую способность рассуждать о фундаментальных математических элементах и визуальных концепциях. Мы выявили пробел в оценке задач начального уровня по математике, которые требуют явной визуальной зависимости — способности моделей различать, интегрировать и рассуждать на основе нескольких изображений, используя при этом здравый смысл. Эти навыки имеют решающее значение для продвижения к более широким возможностям искусственного общего интеллекта (AGI). Чтобы устранить этот пробел, мы представляем VCBENCH — комплексный тест для мультимодального математического рассуждения с явной визуальной зависимостью. VCBENCH включает 1720 задач, охватывающих шесть когнитивных областей, и содержит 6697 изображений (в среднем 3.9 на вопрос), что обеспечивает необходимость рассуждений на основе нескольких изображений. Мы оценили 26 современных LVLM на VCBENCH, выявив значительные различия в производительности: даже лучшие модели не смогли превысить 50% точности. Наши результаты подчеркивают сохраняющиеся трудности в интеграции визуальных и математических аспектов и предлагают направления для дальнейшего развития LVLM.
English
Recent advancements in Large Vision-Language Models (LVLMs) have
significantly enhanced their ability to integrate visual and linguistic
information, achieving near-human proficiency in tasks like object recognition,
captioning, and visual question answering. However, current benchmarks
typically focus on knowledge-centric evaluations that assess domain-specific
expertise, often neglecting the core ability to reason about fundamental
mathematical elements and visual concepts. We identify a gap in evaluating
elementary-level math problems, which rely on explicit visual
dependencies-requiring models to discern, integrate, and reason across multiple
images while incorporating commonsense knowledge, all of which are crucial for
advancing toward broader AGI capabilities. To address this gap, we introduce
VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with
explicit visual dependencies. VCBENCH includes 1,720 problems across six
cognitive domains, featuring 6,697 images (averaging 3.9 per question) to
ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH,
revealing substantial performance disparities, with even the top models unable
to exceed 50% accuracy. Our findings highlight the ongoing challenges in
visual-mathematical integration and suggest avenues for future LVLM
advancements.Summary
AI-Generated Summary