MCP-Universe: Valutazione dei Modelli Linguistici di Grandi Dimensioni con Protocolli di Server di Contesto del Mondo Reale
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
August 20, 2025
Autori: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI
Abstract
Il Model Context Protocol è emerso come uno standard trasformativo per collegare i grandi modelli linguistici a fonti di dati e strumenti esterni, guadagnando rapidamente adozione tra i principali fornitori di IA e piattaforme di sviluppo. Tuttavia, i benchmark esistenti sono eccessivamente semplicistici e non riescono a cogliere le sfide reali delle applicazioni, come il ragionamento a lungo termine e spazi di strumenti ampi e sconosciuti. Per colmare questa lacuna critica, introduciamo MCP-Universe, il primo benchmark completo progettato specificamente per valutare i LLM in compiti realistici e complessi attraverso l'interazione con server MCP del mondo reale. Il nostro benchmark comprende 6 domini principali che coprono 11 diversi server MCP: Navigazione Geografica, Gestione di Repository, Analisi Finanziaria, Progettazione 3D, Automazione del Browser e Ricerca Web. Per garantire una valutazione rigorosa, implementiamo valutatori basati sull'esecuzione, inclusi valutatori di formato per la conformità al formato degli agenti, valutatori statici per la corrispondenza di contenuti invarianti nel tempo e valutatori dinamici che recuperano automaticamente la verità di base in tempo reale per compiti temporalmente sensibili. Attraverso una valutazione estensiva dei principali LLM, scopriamo che anche modelli all'avanguardia come GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%) mostrano significative limitazioni nelle prestazioni. Inoltre, il nostro benchmark rappresenta una sfida significativa per i contesti lunghi degli agenti LLM, poiché il numero di token di input aumenta rapidamente con il numero di passi di interazione. Inoltre, introduce una sfida legata agli strumenti sconosciuti, poiché gli agenti LLM spesso non hanno familiarità con l'uso preciso dei server MCP. È interessante notare che agenti di livello aziendale come Cursor non riescono a ottenere prestazioni migliori rispetto ai framework ReAct standard. Oltre alla valutazione, rendiamo open-source il nostro framework di valutazione estensibile con supporto UI, consentendo a ricercatori e professionisti di integrare facilmente nuovi agenti e server MCP, promuovendo l'innovazione nel rapido ecosistema MCP in evoluzione.
English
The Model Context Protocol has emerged as a transformative standard for
connecting large language models to external data sources and tools, rapidly
gaining adoption across major AI providers and development platforms. However,
existing benchmarks are overly simplistic and fail to capture real application
challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To
address this critical gap, we introduce MCP-Universe, the first comprehensive
benchmark specifically designed to evaluate LLMs in realistic and hard tasks
through interaction with real-world MCP servers. Our benchmark encompasses 6
core domains spanning 11 different MCP servers: Location Navigation, Repository
Management, Financial Analysis, 3D Design, Browser Automation, and Web
Searching. To ensure rigorous evaluation, we implement execution-based
evaluators, including format evaluators for agent format compliance, static
evaluators for time-invariant content matching, and dynamic evaluators that
automatically retrieve real-time ground truth for temporally sensitive tasks.
Through extensive evaluation of leading LLMs, we find that even SOTA models
such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit
significant performance limitations. In addition, our benchmark poses a
significant long-context challenge for LLM agents, as the number of input
tokens increases rapidly with the number of interaction steps. Moreover, it
introduces an unknown-tools challenge, as LLM agents often lack familiarity
with the precise usage of the MCP servers. Notably, enterprise-level agents
like Cursor cannot achieve better performance than standard ReAct frameworks.
Beyond evaluation, we open-source our extensible evaluation framework with UI
support, enabling researchers and practitioners to seamlessly integrate new
agents and MCP servers while fostering innovation in the rapidly evolving MCP
ecosystem.