ChatPaper.aiChatPaper

M3-Bench : Benchmark d'Agent MLLM Utilisant des Outils Multi-Modaux, Multi-Sauts et Multi-Threadés

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

November 21, 2025
papers.authors: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
cs.AI

papers.abstract

Nous présentons M^3-Bench, le premier benchmark pour l'évaluation de l'utilisation d'outils multimodaux sous le protocole MCP (Model Context Protocol). Le benchmark cible des workflows réalistes, multi-étapes et multi-threadés qui nécessitent un ancrage visuel et un raisonnement textuel, des dépendances inter-outils, ainsi que la persistance de ressources intermédiaires entre les étapes. Nous introduisons un alignement piloté par similarité qui sérialise chaque appel d'outil, intègre les signatures avec un encodeur de phrases et effectue un appariement hongrois par regroupement de similarité pour obtenir des correspondances un-à-un vérifiables. Sur la base de cet alignement, nous rapportons des métriques interprétables qui découplent la fidélité sémantique de la cohérence du workflow. Le benchmark couvre 28 serveurs avec 231 outils et fournit des trajectoires standardisées organisées via un pipeline Exécuteur & Juge avec vérification humaine ; un ensemble auxiliaire de quatre grands modèles de langage (LLM) juges rapporte l'Achèvement de la Tâche et l'ancrage informationnel de la tâche finale. Les évaluations de modèles de langage multimodaux (MLLM) représentatifs de l'état de l'art révèlent des lacunes persistantes dans l'utilisation d'outils MCP multimodaux, particulièrement en matière de fidélité des arguments et de cohérence structurelle, soulignant le besoin de méthodes raisonnant conjointement sur les images, le texte et les graphes d'outils. Le dépôt anonyme de notre benchmark se trouve à l'adresse https://github.com/EtaYang10th/Open-M3-Bench.
English
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
PDF172February 7, 2026