AdaptMMBench: Benchmarking adaptiver multimodaler Reasoning für Modusauswahl und Reasoning-Prozess
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
February 2, 2026
papers.authors: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI
papers.abstract
Adaptives multimodales Reasoning hat sich als vielversprechende Grenzdisziplin in Vision-Language-Modellen (VLMs) etabliert, mit dem Ziel, dynamisch zwischen werkzeuggestütztem visuellem Reasoning und Textreasoning zu wechseln, um sowohl Effektivität als auch Effizienz zu steigern. Bisherige Evaluierungen stützen sich jedoch auf statische Schwierigkeitslabels und vereinfachte Metriken, die die dynamische Natur des Schwierigkeitsgrads in Bezug auf unterschiedliche Modellkapazitäten nicht erfassen. Folglich verschleiern sie den Unterschied zwischen adaptiver Modusauswahl und allgemeiner Leistung, während sie feingranulare Prozessanalysen vernachlässigen. In diesem Artikel stellen wir AdaptMMBench vor, einen umfassenden Benchmark für adaptives multimodales Reasoning in fünf Domänen: Realwelt, OCR, GUI, Wissen und Mathematik, die sowohl direkte Wahrnehmungs- als auch komplexe Reasoningaufgaben umfassen. AdaptMMBench nutzt eine Matthews-Korrelationskoeffizienten (MCC)-Metrik, um die Auswahlrationalität verschiedener Reasoningmodi zu bewerten und isoliert diese Metakognitionsfähigkeit durch dynamische Identifikation von Aufgabenschwierigkeiten basierend auf den Fähigkeitsgrenzen der Modelle. Darüber hinaus ermöglicht AdaptMMBench eine mehrdimensionale Prozessevaluation über Schlüsselschrittabdeckung, Werkzeugeffektivität und Recheneffizienz. Unsere Evaluation zeigt, dass zwar adaptive Modusauswahl mit der Modellkapazität skaliert, sie sich jedoch deutlich von der Endgenauigkeit entkoppelt. Im Gegensatz dazu korreliert die Schlüsselschrittabdeckung mit der Leistung, obwohl die Werkzeugeffektivität über verschiedene Modellarchitekturen hinweg stark inkonsistent bleibt.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.