MCP-Universe: Het benchmarken van grote taalmodellen met real-world modelcontextprotocolservers
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
August 20, 2025
Auteurs: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI
Samenvatting
Het Model Context Protocol is naar voren gekomen als een transformerende standaard voor het verbinden van grote taalmodellen met externe gegevensbronnen en tools, en wordt snel geadopteerd door grote AI-aanbieders en ontwikkelingsplatforms. Bestaande benchmarks zijn echter te simplistisch en slagen er niet in om echte toepassingsuitdagingen vast te leggen, zoals langetermijnredenering en grote, onbekende toolruimtes. Om dit kritieke gat te dichten, introduceren we MCP-Universe, de eerste uitgebreide benchmark die specifiek is ontworpen om LLM's te evalueren in realistische en moeilijke taken door interactie met echte MCP-servers. Onze benchmark omvat 6 kerngebieden die 11 verschillende MCP-servers beslaan: Locatienavigatie, Repositorybeheer, Financiële Analyse, 3D-ontwerp, Browserautomatisering en Webzoeken. Om een rigoureuze evaluatie te garanderen, implementeren we uitvoeringsgebaseerde evaluatoren, waaronder formaatevaluatoren voor naleving van agentformaten, statische evaluatoren voor tijdsonafhankelijke inhoudsvergelijking en dynamische evaluatoren die automatisch real-time grondwaarheden ophalen voor tijdgevoelige taken. Door uitgebreide evaluatie van toonaangevende LLM's, ontdekken we dat zelfs SOTA-modellen zoals GPT-5 (43,72%), Grok-4 (33,33%) en Claude-4.0-Sonnet (29,44%) aanzienlijke prestatiebeperkingen vertonen. Daarnaast vormt onze benchmark een aanzienlijke langetermijncontextuitdaging voor LLM-agents, aangezien het aantal invoertokens snel toeneemt met het aantal interactiestappen. Bovendien introduceert het een onbekende-tools-uitdaging, omdat LLM-agents vaak niet bekend zijn met het precieze gebruik van de MCP-servers. Opmerkelijk is dat enterprise-level agents zoals Cursor geen betere prestaties kunnen behalen dan standaard ReAct-frameworks. Naast evaluatie openbaren we ons uitbreidbare evaluatieframework met UI-ondersteuning, waardoor onderzoekers en praktijkmensen naadloos nieuwe agents en MCP-servers kunnen integreren en innovatie kunnen bevorderen in het snel evoluerende MCP-ecosysteem.
English
The Model Context Protocol has emerged as a transformative standard for
connecting large language models to external data sources and tools, rapidly
gaining adoption across major AI providers and development platforms. However,
existing benchmarks are overly simplistic and fail to capture real application
challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To
address this critical gap, we introduce MCP-Universe, the first comprehensive
benchmark specifically designed to evaluate LLMs in realistic and hard tasks
through interaction with real-world MCP servers. Our benchmark encompasses 6
core domains spanning 11 different MCP servers: Location Navigation, Repository
Management, Financial Analysis, 3D Design, Browser Automation, and Web
Searching. To ensure rigorous evaluation, we implement execution-based
evaluators, including format evaluators for agent format compliance, static
evaluators for time-invariant content matching, and dynamic evaluators that
automatically retrieve real-time ground truth for temporally sensitive tasks.
Through extensive evaluation of leading LLMs, we find that even SOTA models
such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit
significant performance limitations. In addition, our benchmark poses a
significant long-context challenge for LLM agents, as the number of input
tokens increases rapidly with the number of interaction steps. Moreover, it
introduces an unknown-tools challenge, as LLM agents often lack familiarity
with the precise usage of the MCP servers. Notably, enterprise-level agents
like Cursor cannot achieve better performance than standard ReAct frameworks.
Beyond evaluation, we open-source our extensible evaluation framework with UI
support, enabling researchers and practitioners to seamlessly integrate new
agents and MCP servers while fostering innovation in the rapidly evolving MCP
ecosystem.