MCP-Universe: Avaliação de Modelos de Linguagem de Grande Escala com Servidores de Protocolo de Contexto do Mundo Real
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
August 20, 2025
Autores: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI
Resumo
O Protocolo de Contexto do Modelo emergiu como um padrão transformador para conectar grandes modelos de linguagem a fontes de dados externas e ferramentas, ganhando rapidamente adoção entre os principais provedores de IA e plataformas de desenvolvimento. No entanto, os benchmarks existentes são excessivamente simplistas e não capturam os desafios reais das aplicações, como raciocínio de longo prazo e espaços de ferramentas grandes e desconhecidos. Para abordar essa lacuna crítica, introduzimos o MCP-Universe, o primeiro benchmark abrangente projetado especificamente para avaliar LLMs em tarefas realistas e complexas por meio da interação com servidores MCP do mundo real. Nosso benchmark abrange 6 domínios principais, abrangendo 11 servidores MCP diferentes: Navegação por Localização, Gerenciamento de Repositórios, Análise Financeira, Design 3D, Automação de Navegador e Busca na Web. Para garantir uma avaliação rigorosa, implementamos avaliadores baseados em execução, incluindo avaliadores de formato para conformidade com o formato do agente, avaliadores estáticos para correspondência de conteúdo invariante no tempo e avaliadores dinâmicos que recuperam automaticamente a verdade real em tempo real para tarefas temporalmente sensíveis. Por meio de uma extensa avaliação dos principais LLMs, descobrimos que até mesmo modelos de última geração, como GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%), exibem limitações significativas de desempenho. Além disso, nosso benchmark apresenta um desafio significativo de contexto longo para agentes LLM, já que o número de tokens de entrada aumenta rapidamente com o número de etapas de interação. Além disso, ele introduz um desafio de ferramentas desconhecidas, pois os agentes LLM frequentemente não estão familiarizados com o uso preciso dos servidores MCP. Notavelmente, agentes de nível empresarial, como o Cursor, não conseguem obter um desempenho melhor do que os frameworks ReAct padrão. Além da avaliação, disponibilizamos nosso framework de avaliação extensível com suporte a UI, permitindo que pesquisadores e profissionais integrem novos agentes e servidores MCP de forma contínua, promovendo a inovação no ecossistema MCP em rápida evolução.
English
The Model Context Protocol has emerged as a transformative standard for
connecting large language models to external data sources and tools, rapidly
gaining adoption across major AI providers and development platforms. However,
existing benchmarks are overly simplistic and fail to capture real application
challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To
address this critical gap, we introduce MCP-Universe, the first comprehensive
benchmark specifically designed to evaluate LLMs in realistic and hard tasks
through interaction with real-world MCP servers. Our benchmark encompasses 6
core domains spanning 11 different MCP servers: Location Navigation, Repository
Management, Financial Analysis, 3D Design, Browser Automation, and Web
Searching. To ensure rigorous evaluation, we implement execution-based
evaluators, including format evaluators for agent format compliance, static
evaluators for time-invariant content matching, and dynamic evaluators that
automatically retrieve real-time ground truth for temporally sensitive tasks.
Through extensive evaluation of leading LLMs, we find that even SOTA models
such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit
significant performance limitations. In addition, our benchmark poses a
significant long-context challenge for LLM agents, as the number of input
tokens increases rapidly with the number of interaction steps. Moreover, it
introduces an unknown-tools challenge, as LLM agents often lack familiarity
with the precise usage of the MCP servers. Notably, enterprise-level agents
like Cursor cannot achieve better performance than standard ReAct frameworks.
Beyond evaluation, we open-source our extensible evaluation framework with UI
support, enabling researchers and practitioners to seamlessly integrate new
agents and MCP servers while fostering innovation in the rapidly evolving MCP
ecosystem.