ChatPaper.aiChatPaper

AdaptMMBench: Evaluación Comparativa del Razonamiento Multimodal Adaptativo para la Selección de Modalidad y el Proceso de Razonamiento

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

February 2, 2026
Autores: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI

Resumen

El razonamiento multimodal adaptativo ha surgido como una frontera prometedora en los Modelos de Visión y Lenguaje (VLM), con el objetivo de modular dinámicamente entre el razonamiento visual aumentado con herramientas y el razonamiento textual para mejorar tanto la efectividad como la eficiencia. Sin embargo, las evaluaciones existentes se basan en etiquetas estáticas de dificultad y métricas simplistas, que no logran capturar la naturaleza dinámica de la dificultad en relación con las diversas capacidades de los modelos. En consecuencia, oscurecen la distinción entre la selección de modo adaptativo y el rendimiento general, al tiempo que descuidan los análisis de procesos granulares. En este artículo, proponemos AdaptMMBench, un benchmark integral para el razonamiento multimodal adaptativo en cinco dominios: mundo real, OCR, GUI, conocimiento y matemáticas, que abarca tanto tareas de percepción directa como de razonamiento complejo. AdaptMMBench utiliza la métrica del Coeficiente de Correlación de Matthews (MCC) para evaluar la racionalidad de la selección de los distintos modos de razonamiento, aislando esta capacidad de metacognición mediante la identificación dinámica de las dificultades de la tarea basada en los límites de capacidad de los modelos. Además, AdaptMMBench facilita la evaluación multidimensional del proceso a través de la cobertura de pasos clave, la efectividad de las herramientas y la eficiencia computacional. Nuestra evaluación revela que, si bien la selección de modo adaptativo escala con la capacidad del modelo, se desacopla notablemente de la precisión final. Por el contrario, la cobertura de pasos clave se alinea con el rendimiento, aunque la efectividad de las herramientas sigue siendo altamente inconsistente entre las arquitecturas de los modelos.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.
PDF81February 5, 2026