AdaptMMBench: Бенчмарк адаптивного мультимодального рассуждения для выбора режима и процесса логического вывода
AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process
February 2, 2026
Авторы: Xintong Zhang, Xiaowen Zhang, Jongrong Wu, Zhi Gao, Shilin Yan, Zhenxin Diao, Kunpeng Gao, Xuanyan Chen, Yuwei Wu, Yunde Jia, Qing Li
cs.AI
Аннотация
Адаптивное мультимодальное рассуждение стало перспективным направлением в моделях «зрение-язык» (Vision-Language Models, VLM), нацеленным на динамическое переключение между инструментально-расширенным визуальным рассуждением и текстовым рассуждением для повышения как эффективности, так и результативности. Однако существующие методы оценки опираются на статические метки сложности и упрощённые метрики, которые не способны отразить динамический характер сложности относительно меняющихся возможностей моделей. Как следствие, они не позволяют чётко разграничить адаптивный выбор режима и общую производительность, пренебрегая детальным анализом процесса. В данной статье мы предлагаем AdaptMMBench — комплексный бенчмарк для оценки адаптивного мультимодального рассуждения в пяти областях: реальный мир, OCR, графический интерфейс, знание и математика, охватывающий как задачи прямого восприятия, так и сложные рассуждения. AdaptMMBench использует метрику коэффициента корреляции Мэттьюса (MCC) для оценки рациональности выбора различных режимов рассуждения, изолируя эту метакогнитивную способность путём динамического определения сложности задач на основе границ возможностей моделей. Кроме того, AdaptMMBench позволяет проводить многомерную оценку процесса по таким параметрам, как покрытие ключевых шагов, эффективность инструментов и вычислительная эффективность. Наша оценка показывает, что, хотя адаптивный выбор режима масштабируется с ростом возможностей модели, он заметно отделён от итоговой точности. Напротив, покрытие ключевых шагов коррелирует с производительностью, хотя эффективность использования инструментов остаётся крайне нестабильной across различных архитектур моделей.
English
Adaptive multimodal reasoning has emerged as a promising frontier in Vision-Language Models (VLMs), aiming to dynamically modulate between tool-augmented visual reasoning and text reasoning to enhance both effectiveness and efficiency. However, existing evaluations rely on static difficulty labels and simplistic metrics, which fail to capture the dynamic nature of difficulty relative to varying model capacities. Consequently, they obscure the distinction between adaptive mode selection and general performance while neglecting fine-grained process analyses. In this paper, we propose AdaptMMBench, a comprehensive benchmark for adaptive multimodal reasoning across five domains: real-world, OCR, GUI, knowledge, and math, encompassing both direct perception and complex reasoning tasks. AdaptMMBench utilizes a Matthews Correlation Coefficient (MCC) metric to evaluate the selection rationality of different reasoning modes, isolating this meta-cognition ability by dynamically identifying task difficulties based on models' capability boundaries. Moreover, AdaptMMBench facilitates multi-dimensional process evaluation across key step coverage, tool effectiveness, and computational efficiency. Our evaluation reveals that while adaptive mode selection scales with model capacity, it notably decouples from final accuracy. Conversely, key step coverage aligns with performance, though tool effectiveness remains highly inconsistent across model architectures.