AdaptMMBench: Avaliação Comparativa do Raciocínio Multimodal Adaptativo para Seleção de Modo e Processo de Raciocínio

Resumo

A raciocínio multimodal adaptativo emergiu como uma fronteira promissora nos Modelos de Visão e Linguagem (VLMs), visando modular dinamicamente entre o raciocínio visual aumentado por ferramentas e o raciocínio textual para melhorar tanto a eficácia quanto a eficiência. No entanto, as avaliações existentes baseiam-se em rótulos de dificuldade estáticos e métricas simplistas, que falham em capturar a natureza dinâmica da dificuldade em relação às variadas capacidades dos modelos. Consequentemente, elas obscurecem a distinção entre a seleção de modo adaptativo e o desempenho geral, enquanto negligenciam análises de processo granulares. Neste artigo, propomos o AdaptMMBench, um benchmark abrangente para o raciocínio multimodal adaptativo em cinco domínios: mundo real, OCR, GUI, conhecimento e matemática, abrangendo tanto tarefas de percepção direta quanto de raciocínio complexo. O AdaptMMBench utiliza uma métrica de Coeficiente de Correlação de Matthews (MCC) para avaliar a racionalidade da seleção de diferentes modos de raciocínio, isolando essa capacidade de metacognição ao identificar dinamicamente as dificuldades das tarefas com base nos limites de capacidade dos modelos. Além disso, o AdaptMMBench facilita a avaliação de processo multidimensional, abrangendo a cobertura de etapas-chave, a eficácia das ferramentas e a eficiência computacional. Nossa avaliação revela que, embora a seleção de modo adaptativo escale com a capacidade do modelo, ela notavelmente se dissocia da precisão final. Por outro lado, a cobertura de etapas-chave está alinhada com o desempenho, embora a eficácia das ferramentas permaneça altamente inconsistente entre as arquiteturas de modelos.

English

Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.

AdaptMMBench: Avaliação Comparativa do Raciocínio Multimodal Adaptativo para Seleção de Modo e Processo de Raciocínio

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Resumo

Support