AdaptMMBench: Benchmark per la Valutazione del Ragionamento Multimodale Adattivo nella Selezione della Modalità e nel Processo Inferenziale
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
February 2, 2026
Autori: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI
Abstract
Il ragionamento multimodale adattivo è emerso come una frontiera promettente nei modelli visione-linguaggio (VLM), con l'obiettivo di modulare dinamicamente tra il ragionamento visivo potenziato da strumenti e il ragionamento testuale per migliorare sia l'efficacia che l'efficienza. Tuttavia, le valutazioni esistenti si basano su etichette di difficoltà statiche e metriche semplicistiche, che non riescono a catturare la natura dinamica della difficoltà relativa alle diverse capacità dei modelli. Di conseguenza, esse oscurano la distinzione tra selezione modale adattiva e prestazione generale, trascurando al contempo analisi granulari del processo. In questo articolo, proponiamo AdaptMMBench, un benchmark completo per il ragionamento multimodale adattivo che abbraccia cinque domini: mondo reale, OCR, interfaccia grafica utente (GUI), conoscenza e matematica, comprendendo sia compiti di percezione diretta che di ragionamento complesso. AdaptMMBench utilizza una metrica del coefficiente di correlazione di Matthews (MCC) per valutare la razionalità della selezione delle diverse modalità di ragionamento, isolando questa abilità di meta-cognizione identificando dinamicamente le difficoltà dei task in base ai limiti di capacità dei modelli. Inoltre, AdaptMMBench facilita una valutazione multidimensionale del processo che considera la copertura dei passaggi chiave, l'efficacia degli strumenti e l'efficienza computazionale. La nostra valutazione rivela che, sebbene la selezione modale adattiva scalì con la capacità del modello, essa si discosta notevolmente dall'accuratezza finale. Al contrario, la copertura dei passaggi chiave si allinea con le prestazioni, sebbene l'efficacia degli strumenti rimanga altamente inconsistente tra le diverse architetture di modelli.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.