ChatPaper.aiChatPaper

Бенчмаркинг мультимодального математического мышления с явной визуальной зависимостью

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

April 24, 2025
Авторы: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI

Аннотация

Последние достижения в области крупномасштабных визуально-языковых моделей (LVLM) значительно улучшили их способность интегрировать визуальную и лингвистическую информацию, приблизившись к человеческому уровню в таких задачах, как распознавание объектов, создание описаний и ответы на вопросы по изображениям. Однако современные тесты обычно сосредоточены на оценке знаний в конкретных областях, часто упуская из виду ключевую способность рассуждать о фундаментальных математических элементах и визуальных концепциях. Мы выявили пробел в оценке задач начального уровня по математике, которые требуют явной визуальной зависимости — способности моделей различать, интегрировать и рассуждать на основе нескольких изображений, используя при этом здравый смысл. Эти навыки имеют решающее значение для продвижения к более широким возможностям искусственного общего интеллекта (AGI). Чтобы устранить этот пробел, мы представляем VCBENCH — комплексный тест для мультимодального математического рассуждения с явной визуальной зависимостью. VCBENCH включает 1720 задач, охватывающих шесть когнитивных областей, и содержит 6697 изображений (в среднем 3.9 на вопрос), что обеспечивает необходимость рассуждений на основе нескольких изображений. Мы оценили 26 современных LVLM на VCBENCH, выявив значительные различия в производительности: даже лучшие модели не смогли превысить 50% точности. Наши результаты подчеркивают сохраняющиеся трудности в интеграции визуальных и математических аспектов и предлагают направления для дальнейшего развития LVLM.
English
Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.

Summary

AI-Generated Summary

PDF82April 29, 2025