ChatPaper.aiChatPaper

명시적 시각적 의존성을 고려한 다중모달 수학적 추론 벤치마킹

Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

April 24, 2025
저자: Zhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
cs.AI

초록

대형 시각-언어 모델(LVLMs)의 최근 발전은 시각적 정보와 언어적 정보를 통합하는 능력을 크게 향상시켜, 객체 인식, 캡셔닝, 시각적 질문 응답과 같은 작업에서 인간에 가까운 숙련도를 달성했습니다. 그러나 현재의 벤치마크는 주로 도메인 특화 지식을 평가하는 지식 중심 평가에 초점을 맞추고 있어, 기본적인 수학적 요소와 시각적 개념에 대한 추론 능력을 평가하는 데는 소홀한 경향이 있습니다. 우리는 명시적인 시각적 의존성을 요구하는 초등 수준의 수학 문제를 평가하는 데 있어 격차를 확인했습니다. 이러한 문제는 모델이 여러 이미지를 식별, 통합, 추론하고 상식 지식을 통합해야 하며, 이는 더 넓은 범용 인공지능(AGI) 능력으로 나아가기 위해 중요한 요소입니다. 이러한 격차를 해결하기 위해, 우리는 명시적인 시각적 의존성을 가진 다중 모드 수학적 추론을 위한 포괄적인 벤치마크인 VCBENCH를 소개합니다. VCBENCH는 6개의 인지 영역에 걸친 1,720개의 문제와 6,697개의 이미지(질문당 평균 3.9개)를 포함하여 다중 이미지 추론을 보장합니다. 우리는 VCBENCH에서 26개의 최신 LVLM을 평가했으며, 상당한 성능 격차를 발견했고, 심지어 최상위 모델도 50% 정확도를 넘지 못했습니다. 우리의 연구 결과는 시각-수학적 통합에서의 지속적인 과제를 강조하며, 향후 LVLM 발전을 위한 방향을 제시합니다.
English
Recent advancements in Large Vision-Language Models (LVLMs) have significantly enhanced their ability to integrate visual and linguistic information, achieving near-human proficiency in tasks like object recognition, captioning, and visual question answering. However, current benchmarks typically focus on knowledge-centric evaluations that assess domain-specific expertise, often neglecting the core ability to reason about fundamental mathematical elements and visual concepts. We identify a gap in evaluating elementary-level math problems, which rely on explicit visual dependencies-requiring models to discern, integrate, and reason across multiple images while incorporating commonsense knowledge, all of which are crucial for advancing toward broader AGI capabilities. To address this gap, we introduce VCBENCH, a comprehensive benchmark for multimodal mathematical reasoning with explicit visual dependencies. VCBENCH includes 1,720 problems across six cognitive domains, featuring 6,697 images (averaging 3.9 per question) to ensure multi-image reasoning. We evaluate 26 state-of-the-art LVLMs on VCBENCH, revealing substantial performance disparities, with even the top models unable to exceed 50% accuracy. Our findings highlight the ongoing challenges in visual-mathematical integration and suggest avenues for future LVLM advancements.

Summary

AI-Generated Summary

PDF92April 29, 2025