AdaptMMBench : Évaluation comparative du raisonnement multimodal adaptatif pour la sélection des modes et le processus de raisonnement
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
February 2, 2026
papers.authors: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI
papers.abstract
Le raisonnement multimodal adaptatif est apparu comme une frontière prometteuse dans les modèles vision-langage (VLM), visant à moduler dynamiquement entre le raisonnement visuel augmenté par outils et le raisonnement textuel pour améliorer à la fois l'efficacité et l'efficience. Cependant, les évaluations existantes reposent sur des étiquettes de difficulté statiques et des métriques simplistes, qui ne parviennent pas à capturer la nature dynamique de la difficulté relative aux capacités variables des modèles. Par conséquent, elles estompent la distinction entre la sélection de mode adaptative et les performances générales, tout en négligeant les analyses fines des processus. Dans cet article, nous proposons AdaptMMBench, un benchmark complet pour le raisonnement multimodal adaptatif couvrant cinq domaines : monde réel, OCR, interface graphique, connaissances et mathématiques, englobant à la fois des tâches de perception directe et de raisonnement complexe. AdaptMMBench utilise une métrique du coefficient de corrélation de Matthews (MCC) pour évaluer la rationalité de la sélection des différents modes de raisonnement, en isolant cette capacité de métacognition en identifiant dynamiquement les difficultés des tâches sur la base des limites de capacité des modèles. De plus, AdaptMMBench facilite l'évaluation processuelle multidimensionnelle à travers la couverture des étapes clés, l'efficacité des outils et l'efficacité computationnelle. Notre évaluation révèle que si la sélection de mode adaptative s'étend avec la capacité du modèle, elle se découple notablement de la précision finale. À l'inverse, la couverture des étapes clés est alignée avec les performances, bien que l'efficacité des outils reste très incohérente selon les architectures de modèles.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.