ChatPaper.aiChatPaper

M3-Bench: Benchmark de Agentes MLLM Multimodales, Multihilo y de Múltiples Pasos con Uso de Herramientas

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

November 21, 2025
Autores: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
cs.AI

Resumen

Presentamos M^3-Bench, el primer benchmark para evaluar el uso de herramientas multimodales bajo el Protocolo de Contexto del Modelo (MCP). El benchmark se centra en flujos de trabajo realistas, de múltiples saltos y multi-hilo, que requieren anclaje visual y razonamiento textual, dependencias cruzadas entre herramientas y persistencia de recursos intermedios a lo largo de los pasos. Introducimos una alineación basada en similitud que serializa cada llamada a una herramienta, incrusta las firmas con un codificador de oraciones y realiza un emparejamiento húngaro agrupado por similitud para obtener correspondencias auditables uno a uno. Sobre esta alineación, reportamos métricas interpretables que desacoplan la fidelidad semántica de la consistencia del flujo de trabajo. El benchmark abarca 28 servidores con 231 herramientas y proporciona trayectorias estandarizadas curadas mediante una canalización de Ejecutor y Juez con verificación humana; un conjunto auxiliar de cuatro modelos de lenguaje grandes (LLMs) como jueces reporta la Finalización de la Tarea y el anclaje de información de la tarea final. Las evaluaciones de modelos de lenguaje multimodal (MLLMs) representativos del estado del arte revelan brechas persistentes en el uso de herramientas MCP multimodales, particularmente en la fidelidad de los argumentos y la consistencia estructural, subrayando la necesidad de métodos que razonen conjuntamente sobre imágenes, texto y grafos de herramientas. El repositorio anónimo de nuestro Benchmark se encuentra en https://github.com/EtaYang10th/Open-M3-Bench.
English
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
PDF172February 7, 2026