ChatPaper.aiChatPaper

AdaptMMBench: Benchmark voor adaptieve multimodale redeneervaardigheden voor modusselectie en redeneerproces

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

February 2, 2026
Auteurs: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI

Samenvatting

Adaptieve multimodale redeneervaardigheid is naar voren gekomen als een veelbelovend onderzoeksfront in Vision-Language Models (VLMs), met als doel om dynamisch te schakelen tussen tool-ondersteund visueel redeneren en tekstueel redeneren om zowel effectiviteit als efficiëntie te verbeteren. Bestaande evaluatiemethoden vertrouwen echter op statische moeilijkheidslabels en simplistische metrieken, die de dynamische aard van moeilijkheid in relatie tot variërende modelcapaciteiten niet kunnen vastleggen. Hierdoor vervaagt het onderscheid tussen adaptieve modusselectie en algemene prestaties, terwijl fijnmazige procesanalyses worden verwaarloosd. In dit artikel introduceren we AdaptMMBench, een uitgebreide benchmark voor adaptief multimodaal redeneren over vijf domeinen: alledaagse situaties, OCR, GUI, kennis en wiskunde, die zowel directe perceptie als complexe redeneertaken omvat. AdaptMMBench gebruikt de Matthews Correlatiecoëfficiënt (MCC) als metriek om de selectierationaliteit van verschillende redeneermodi te evalueren, waarbij dit metacognitieve vermogen wordt geïsoleerd door taakmoeilijkheden dynamisch te identificeren op basis van de capaciteitsgrenzen van modellen. Bovendien maakt AdaptMMBench een multidimensionale procesevaluatie mogelijk over de dekking van kerstappen, tool-effectiviteit en computationele efficiëntie. Onze evaluatie toont aan dat hoewel adaptieve modusselectie schaalt met modelcapaciteit, het opmerkelijk losstaat van de uiteindelijke nauwkeurigheid. Daarentegen correleert de dekking van kerstappen wel met prestaties, hoewel tool-effectiviteit sterk inconsistent blijft tussen modelarchitecturen.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.
PDF103March 19, 2026