ChatPaper.aiChatPaper

M3-Bench: Benchmark per Agenti MLLM con Utilizzo di Strumenti Multi-Modali, Multi-Hop e Multi-Threaded

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

November 21, 2025
Autori: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
cs.AI

Abstract

Presentiamo M³-Bench, il primo benchmark per la valutazione dell'uso di strumenti multimodali secondo il Model Context Protocol. Il benchmark si concentra su flussi di lavoro realistici, multi-hop e multi-thread, che richiedono grounding visivo e ragionamento testuale, dipendenze cross-tool e persistenza di risorse intermedie attraverso i vari passaggi. Introduciamo un allineamento basato sulla similarità che serializza ogni chiamata di strumento, incorpora le firme con un encoder di frasi ed esegue un abbinamento ungherese (Hungarian matching) raggruppato per similarità per ottenere corrispondenze uno-a-uno verificabili. Sulla base di questo allineamento, riportiamo metriche interpretabili che disaccoppiano la fedeltà semantica dalla coerenza del flusso di lavoro. Il benchmark comprende 28 server con 231 strumenti e fornisce traiettorie standardizzate curate attraverso una pipeline Executor & Judge con verifica umana; un ensemble giudicante ausiliario di quattro grandi modelli linguistici (LLM) riporta il Completamento del Compito finale e il grounding delle informazioni. Le valutazioni di modelli linguistici multimodali (MLLM) all'avanguardia rivelano lacune persistenti nell'uso di strumenti MCP multimodali, in particolare nella fedeltà degli argomenti e nella coerenza strutturale, sottolineando la necessità di metodi che ragionino congiuntamente su immagini, testo e grafi degli strumenti. La repository anonima del nostro benchmark è disponibile all'indirizzo https://github.com/EtaYang10th/Open-M3-Bench.
English
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
PDF162December 3, 2025