ChatPaper.aiChatPaper

OSWorld-MCP: コンピュータ利用エージェントにおけるMCPツール呼び出しのベンチマーキング

OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

October 28, 2025
著者: Hongrui Jia, Jitong Liao, Xi Zhang, Haiyang Xu, Tianbao Xie, Chaoya Jiang, Ming Yan, Si Liu, Wei Ye, Fei Huang
cs.AI

要旨

意思決定と推論能力の進化に伴い、マルチモーダルエージェントはコンピュータ応用シナリオにおいて強力な可能性を示している。従来の評価は主にGUI操作スキルに焦点が当てられてきたが、Model Context Protocol(MCP)によって実現されるツール呼び出し能力はほとんど評価の対象外となっていた。ツール呼び出し機能を統合したエージェントと、GUI操作のみで評価されたエージェントを比較することは、本質的に不公平である。本論文ではOSWorld-MCPを提案する。これは実環境下でのコンピュータ利用エージェントのツール呼び出し、GUI操作、意思決定能力を包括的かつ公平に評価する初のベンチマークである。我々は新規の自動コード生成パイプラインを設計し、ツールを創出するとともに、既存ツールから精選したものを組み合わせた。厳格な手動検証により、158個の高品質なツール(7つの一般的なアプリケーションをカバー)を開発し、それぞれについて機能の正確性、実用性、汎用性を確認した。OSWorld-MCPを用いた最先端マルチモーダルエージェントの大規模評価により、MCPツールがタスク成功率を全般的に向上させることが明らかになった(例えば、OpenAI o3では15ステップで8.3%から20.4%へ、Claude 4 Sonnetでは50ステップで40.1%から43.3%へ)。これはツール呼び出し能力の評価の重要性を強調するものである。しかし、最も強力なモデルであってもツール呼び出し率は36.3%と比較的低く、改善の余地があるとともに、本ベンチマークの難易度の高さを示している。MCPツール使用スキルを明示的に測定することにより、OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境における性能評価の新たな基準を確立する。コード、環境、データはhttps://osworld-mcp.github.ioで公開している。
English
With advances in decision-making and reasoning capabilities, multimodal agents show strong potential in computer application scenarios. Past evaluations have mainly assessed GUI interaction skills, while tool invocation abilities, such as those enabled by the Model Context Protocol (MCP), have been largely overlooked. Comparing agents with integrated tool invocation to those evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP, the first comprehensive and fair benchmark for assessing computer-use agents' tool invocation, GUI operation, and decision-making abilities in a real-world environment. We design a novel automated code-generation pipeline to create tools and combine them with a curated selection from existing tools. Rigorous manual validation yields 158 high-quality tools (covering 7 common applications), each verified for correct functionality, practical applicability, and versatility. Extensive evaluations of state-of-the-art multimodal agents on OSWorld-MCP show that MCP tools generally improve task success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1% to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of assessing tool invocation capabilities. However, even the strongest models have relatively low tool invocation rates, Only 36.3%, indicating room for improvement and highlighting the benchmark's challenge. By explicitly measuring MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents and sets a new standard for evaluating performance in complex, tool-assisted environments. Our code, environment, and data are publicly available at https://osworld-mcp.github.io.
PDF221December 1, 2025