ChatPaper.aiChatPaper

M3-Bench:マルチモーダル・マルチホップ・マルチスレッド型ツール利用MLLMエージェントベンチマーク

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

November 21, 2025
著者: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
cs.AI

要旨

本論文では、モデルコンテキストプロトコルにおけるマルチモーダルツール利用の評価に向けた初のベンチマークであるM^3-Benchを提案する。本ベンチマークは、視覚的基盤付けとテキスト推論、ツール間依存関係、ステップを跨ぐ中間リソースの持続性を必要とする、現実的なマルチホップ・マルチスレッド型ワークフローを対象としている。類似性駆動型アラインメント手法を導入し、各ツール呼び出しを直列化、文エンコーダによる署名埋め込み、類似性バケット付きハンガリアンマッチングを実施することで、監査可能な一対一対応を実現する。このアラインメントに基づき、意味的忠実度とワークフロー一貫性を分離して評価する解釈可能な指標を報告する。ベンチマークは28サーバー・231ツールに及び、Executor & Judgeパイプラインと人的検証による標準化された軌跡を提供する。補助的に4大規模言語モデル(LLM)判定アンサンブルによる最終タスク完了度と情報接地性の評価を実施する。代表的な最先端マルチモーダルLLM(MLLM)の評価により、特に引数忠実性と構造一貫性において、マルチモーダルMCPツール利用に持続的課題が存在することが明らかとなり、画像・テキスト・ツールグラフの統合的な推論手法の必要性が示された。本ベンチマークの匿名リポジトリはhttps://github.com/EtaYang10th/Open-M3-Benchにて公開されている。
English
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
PDF172February 7, 2026