MCP-Universe:実世界のモデルコンテキストプロトコルサーバーを用いた大規模言語モデルのベンチマーキング
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
August 20, 2025
著者: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI
要旨
モデルコンテキストプロトコル(Model Context Protocol, MCP)は、大規模言語モデル(LLM)を外部データソースやツールに接続するための革新的な標準として登場し、主要なAIプロバイダーや開発プラットフォームで急速に採用が進んでいます。しかし、既存のベンチマークは過度に単純化されており、長期的な推論や大規模で未知のツール空間といった実際のアプリケーションの課題を捉えられていません。この重要なギャップを埋めるため、我々はMCP-Universeを導入します。これは、現実世界のMCPサーバーとの相互作用を通じてLLMを現実的かつ困難なタスクで評価するために特別に設計された初の包括的なベンチマークです。我々のベンチマークは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、ウェブ検索の6つのコアドメインにまたがり、11の異なるMCPサーバーをカバーしています。厳密な評価を確保するため、エージェントのフォーマット準拠を確認するフォーマット評価器、時間不変のコンテンツマッチングを行う静的評価器、時間的に敏感なタスクに対してリアルタイムのグラウンドトゥルースを自動的に取得する動的評価器を実装しています。主要なLLMの広範な評価を通じて、GPT-5(43.72%)、Grok-4(33.33%)、Claude-4.0-Sonnet(29.44%)といった最先端のモデルでさえも、顕著な性能制限を示すことが明らかになりました。さらに、我々のベンチマークは、LLMエージェントにとって重要な長文脈の課題を提示します。入力トークン数は相互作用ステップの増加に伴い急速に増加するためです。また、MCPサーバーの正確な使用方法にLLMエージェントが慣れていないという未知のツールの課題も導入されます。特に、Cursorのようなエンタープライズレベルのエージェントでも、標準的なReActフレームワークを上回る性能を達成できません。評価を超えて、我々はUIサポートを備えた拡張可能な評価フレームワークをオープンソース化し、研究者や実務者が新しいエージェントやMCPサーバーをシームレスに統合できるようにし、急速に進化するMCPエコシステムにおけるイノベーションを促進します。
English
The Model Context Protocol has emerged as a transformative standard for
connecting large language models to external data sources and tools, rapidly
gaining adoption across major AI providers and development platforms. However,
existing benchmarks are overly simplistic and fail to capture real application
challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To
address this critical gap, we introduce MCP-Universe, the first comprehensive
benchmark specifically designed to evaluate LLMs in realistic and hard tasks
through interaction with real-world MCP servers. Our benchmark encompasses 6
core domains spanning 11 different MCP servers: Location Navigation, Repository
Management, Financial Analysis, 3D Design, Browser Automation, and Web
Searching. To ensure rigorous evaluation, we implement execution-based
evaluators, including format evaluators for agent format compliance, static
evaluators for time-invariant content matching, and dynamic evaluators that
automatically retrieve real-time ground truth for temporally sensitive tasks.
Through extensive evaluation of leading LLMs, we find that even SOTA models
such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit
significant performance limitations. In addition, our benchmark poses a
significant long-context challenge for LLM agents, as the number of input
tokens increases rapidly with the number of interaction steps. Moreover, it
introduces an unknown-tools challenge, as LLM agents often lack familiarity
with the precise usage of the MCP servers. Notably, enterprise-level agents
like Cursor cannot achieve better performance than standard ReAct frameworks.
Beyond evaluation, we open-source our extensible evaluation framework with UI
support, enabling researchers and practitioners to seamlessly integrate new
agents and MCP servers while fostering innovation in the rapidly evolving MCP
ecosystem.