AdaptMMBench: 모드 선택 및 추론 과정을 위한 적응형 멀티모달 추론 벤치마킹
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
February 2, 2026
저자: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI
초록
적응형 멀티모달 추론은 시각-언어 모델(VLM) 분야에서 유망한 방향으로 부상하며, 효과성과 효율성을 동시에 향상시키기 위해 도구 기반 시각 추론과 텍스트 추론 간의 동적 조절을 목표로 합니다. 그러나 기존 평가 방법은 정적 난이도 라벨과 단순한 지표에 의존하여 모델 역량에 따라 변화하는 난이도의 동적 특성을 제대로 반영하지 못합니다. 이로 인해 적응형 모드 선택과 일반 성과 간의 구분이 모호해지고, 세분화된 과정 분석이 간과되고 있습니다. 본 논문에서는 실제 세계, OCR, GUI, 지식, 수학 등 다섯 개 영역에 걸친 적응형 멀티모달 추론 종합 벤치마크인 AdaptMMBench를 제안합니다. 여기에는 직접 인식 과제와 복합 추론 과제가 모두 포함됩니다. AdaptMMBench는 매튜스 상관계수(MCC) 지표를 활용하여 다양한 추론 모드의 선택 합리성을 평가하며, 모델의 역량 경계를 기반으로 과제 난이도를 동적으로 식별함으로써 이 메타인지 능력을 분리하여 측정합니다. 더 나아가 AdaptMMBench는 핵심 단계 Coverage, 도구 효과성, 계산 효율성에 걸친 다차원적 과정 평가를 가능하게 합니다. 우리의 평가 결과에 따르면, 적응형 모드 선택 능력은 모델 규모에 따라 확장되지만 최종 정확도와는 뚜렷이 분리되는 양상을 보입니다. 반면 핵심 단계 Coverage는 성능과 밀접한 연관성을 보이지만, 도구 효과성은 모델 아키텍처에 따라 매우 불균일한 것으로 나타났습니다.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.