ChatPaper.aiChatPaper

MCP-Universe: Valutazione dei Modelli Linguistici di Grandi Dimensioni con Protocolli di Server di Contesto del Mondo Reale

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

August 20, 2025
Autori: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI

Abstract

Il Model Context Protocol è emerso come uno standard trasformativo per collegare i grandi modelli linguistici a fonti di dati e strumenti esterni, guadagnando rapidamente adozione tra i principali fornitori di IA e piattaforme di sviluppo. Tuttavia, i benchmark esistenti sono eccessivamente semplicistici e non riescono a cogliere le sfide reali delle applicazioni, come il ragionamento a lungo termine e spazi di strumenti ampi e sconosciuti. Per colmare questa lacuna critica, introduciamo MCP-Universe, il primo benchmark completo progettato specificamente per valutare i LLM in compiti realistici e complessi attraverso l'interazione con server MCP del mondo reale. Il nostro benchmark comprende 6 domini principali che coprono 11 diversi server MCP: Navigazione Geografica, Gestione di Repository, Analisi Finanziaria, Progettazione 3D, Automazione del Browser e Ricerca Web. Per garantire una valutazione rigorosa, implementiamo valutatori basati sull'esecuzione, inclusi valutatori di formato per la conformità al formato degli agenti, valutatori statici per la corrispondenza di contenuti invarianti nel tempo e valutatori dinamici che recuperano automaticamente la verità di base in tempo reale per compiti temporalmente sensibili. Attraverso una valutazione estensiva dei principali LLM, scopriamo che anche modelli all'avanguardia come GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%) mostrano significative limitazioni nelle prestazioni. Inoltre, il nostro benchmark rappresenta una sfida significativa per i contesti lunghi degli agenti LLM, poiché il numero di token di input aumenta rapidamente con il numero di passi di interazione. Inoltre, introduce una sfida legata agli strumenti sconosciuti, poiché gli agenti LLM spesso non hanno familiarità con l'uso preciso dei server MCP. È interessante notare che agenti di livello aziendale come Cursor non riescono a ottenere prestazioni migliori rispetto ai framework ReAct standard. Oltre alla valutazione, rendiamo open-source il nostro framework di valutazione estensibile con supporto UI, consentendo a ricercatori e professionisti di integrare facilmente nuovi agenti e server MCP, promuovendo l'innovazione nel rapido ecosistema MCP in evoluzione.
English
The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching. To ensure rigorous evaluation, we implement execution-based evaluators, including format evaluators for agent format compliance, static evaluators for time-invariant content matching, and dynamic evaluators that automatically retrieve real-time ground truth for temporally sensitive tasks. Through extensive evaluation of leading LLMs, we find that even SOTA models such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit significant performance limitations. In addition, our benchmark poses a significant long-context challenge for LLM agents, as the number of input tokens increases rapidly with the number of interaction steps. Moreover, it introduces an unknown-tools challenge, as LLM agents often lack familiarity with the precise usage of the MCP servers. Notably, enterprise-level agents like Cursor cannot achieve better performance than standard ReAct frameworks. Beyond evaluation, we open-source our extensible evaluation framework with UI support, enabling researchers and practitioners to seamlessly integrate new agents and MCP servers while fostering innovation in the rapidly evolving MCP ecosystem.
PDF4210August 21, 2025