ChatPaper.aiChatPaper

MCP-Universum: Benchmarking von Large Language Models mit Echtzeit-Modellkontextprotokollservern

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

August 20, 2025
papers.authors: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI

papers.abstract

Das Model Context Protocol hat sich als ein transformativer Standard für die Verbindung großer Sprachmodelle mit externen Datenquellen und Werkzeugen etabliert und wird schnell von führenden KI-Anbietern und Entwicklungsplattformen übernommen. Allerdings sind bestehende Benchmarks zu vereinfacht und erfassen nicht die realen Anwendungsherausforderungen wie langfristiges Denken und große, unbekannte Werkzeugräume. Um diese kritische Lücke zu schließen, führen wir MCP-Universe ein, den ersten umfassenden Benchmark, der speziell entwickelt wurde, um LLMs in realistischen und anspruchsvollen Aufgaben durch die Interaktion mit realen MCP-Servern zu bewerten. Unser Benchmark umfasst 6 Kernbereiche, die sich über 11 verschiedene MCP-Server erstrecken: Standortnavigation, Repository-Verwaltung, Finanzanalyse, 3D-Design, Browser-Automatisierung und Websuche. Um eine rigorose Bewertung zu gewährleisten, implementieren wir ausführungsbasierte Evaluatoren, darunter Format-Evaluatoren für die Einhaltung des Agentenformats, statische Evaluatoren für zeitinvariante Inhaltsabgleiche und dynamische Evaluatoren, die automatisch Echtzeit-Ground-Truth für zeitkritische Aufgaben abrufen. Durch umfangreiche Bewertungen führender LLMs stellen wir fest, dass selbst SOTA-Modelle wie GPT-5 (43,72 %), Grok-4 (33,33 %) und Claude-4.0-Sonnet (29,44 %) erhebliche Leistungsgrenzen aufweisen. Darüber hinaus stellt unser Benchmark eine erhebliche Herausforderung für LLM-Agenten im Hinblick auf lange Kontexte dar, da die Anzahl der Eingabe-Tokens mit der Anzahl der Interaktionsschritte schnell ansteigt. Zudem führt er eine Herausforderung durch unbekannte Werkzeuge ein, da LLM-Agenten oft nicht mit der präzisen Nutzung der MCP-Server vertraut sind. Bemerkenswerterweise können unternehmensbezogene Agenten wie Cursor keine bessere Leistung erzielen als standardmäßige ReAct-Frameworks. Über die Bewertung hinaus stellen wir unser erweiterbares Evaluationsframework mit UI-Unterstützung als Open Source zur Verfügung, wodurch Forscher und Praktiker neue Agenten und MCP-Server nahtlos integrieren und Innovationen im sich schnell entwickelnden MCP-Ökosystem fördern können.
English
The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching. To ensure rigorous evaluation, we implement execution-based evaluators, including format evaluators for agent format compliance, static evaluators for time-invariant content matching, and dynamic evaluators that automatically retrieve real-time ground truth for temporally sensitive tasks. Through extensive evaluation of leading LLMs, we find that even SOTA models such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit significant performance limitations. In addition, our benchmark poses a significant long-context challenge for LLM agents, as the number of input tokens increases rapidly with the number of interaction steps. Moreover, it introduces an unknown-tools challenge, as LLM agents often lack familiarity with the precise usage of the MCP servers. Notably, enterprise-level agents like Cursor cannot achieve better performance than standard ReAct frameworks. Beyond evaluation, we open-source our extensible evaluation framework with UI support, enabling researchers and practitioners to seamlessly integrate new agents and MCP servers while fostering innovation in the rapidly evolving MCP ecosystem.
PDF337August 21, 2025