ChatPaper.aiChatPaper

M3-Bench: 다중 모달, 다중 홉, 다중 스레드 도구 사용 MLLM 에이전트 벤치마크

M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

November 21, 2025
저자: Yang Zhou, Mingyu Zhao, Zhenting Wang, Difei Gu, Bangwei Guo, Ruosong Ye, Ligong Han, Can Jin, Dimitris N. Metaxas
cs.AI

초록

M^3-Bench를 소개합니다. 이는 모델 컨텍스트 프로토콜(Model Context Protocol) 하에서 다중 모달 도구 사용 능력을 평가하는 최초의 벤치마크입니다. 본 벤치마크는 시각적 기반 및 텍스트적 추론, 도구 간 의존성, 단계별 중간 자원의 지속성 등을 요구하는 현실적이고 다중 홉(multi-hop), 다중 스레드(multi-threaded) 워크플로우를 대상으로 합니다. 우리는 유사도 기반 정렬 방식을 도입하여 각 도구 호출을 직렬화하고, 문장 인코더로 시그니처를 임베딩하며, 유사도 버킷 헝가리안 매칭을 수행하여 검증 가능한 1:1 대응 관계를 얻습니다. 이 정렬을 바탕으로 의미론적 정확도와 워크플로우 일관성을 분리하여 보고하는 해석 가능한 지표를 제시합니다. 벤치마크는 231개의 도구와 28개의 서버를 아우르며, Executor & Judge 파이프라인과 인간 검증을 통해 선별된 표준화된 실행 궤적을 제공합니다. 보조적으로 4개의 대형 언어 모델(LLM) Judge 앙상블이 최종 작업 완료도와 정보 기반 정도를 보고합니다. 최신 다중 모달 LLM(MLLM)들의 평가 결과, 특히 인자 정확도와 구조 일관성에서 다중 모달 MCP 도구 사용에 지속적인 격차가 존재함을 보여주며, 이미지, 텍스트, 도구 그래프를 함께 추론하는 방법의 필요성을 강조합니다. 우리 벤치마크의 익명 저장소는 https://github.com/EtaYang10th/Open-M3-Bench 에서 확인할 수 있습니다.
English
We present M^3-Bench, the first benchmark for evaluating multimodal tool use under the Model Context Protocol. The benchmark targets realistic, multi-hop and multi-threaded workflows that require visual grounding and textual reasoning, cross-tool dependencies, and persistence of intermediate resources across steps. We introduce a similarity-driven alignment that serializes each tool call, embeds signatures with a sentence encoder, and performs similarity-bucketed Hungarian matching to obtain auditable one-to-one correspondences. On top of this alignment, we report interpretable metrics that decouple semantic fidelity from workflow consistency. The benchmark spans 28 servers with 231 tools, and provides standardized trajectories curated through an Executor & Judge pipeline with human verification; an auxiliary four large language models (LLMs) judge ensemble reports end-task Task Completion and information grounding. Evaluations of representative state-of-the-art Multimodal LLMs (MLLMs) reveal persistent gaps in multimodal MCP tool use, particularly in argument fidelity and structure consistency, underscoring the need for methods that jointly reason over images, text, and tool graphs. Our Benchmark's anonymous repository is at https://github.com/EtaYang10th/Open-M3-Bench
PDF172February 7, 2026