ChatPaper.aiChatPaper

MCP-Universe: Avaliação de Modelos de Linguagem de Grande Escala com Servidores de Protocolo de Contexto do Mundo Real

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

August 20, 2025
Autores: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI

Resumo

O Protocolo de Contexto do Modelo emergiu como um padrão transformador para conectar grandes modelos de linguagem a fontes de dados externas e ferramentas, ganhando rapidamente adoção entre os principais provedores de IA e plataformas de desenvolvimento. No entanto, os benchmarks existentes são excessivamente simplistas e não capturam os desafios reais das aplicações, como raciocínio de longo prazo e espaços de ferramentas grandes e desconhecidos. Para abordar essa lacuna crítica, introduzimos o MCP-Universe, o primeiro benchmark abrangente projetado especificamente para avaliar LLMs em tarefas realistas e complexas por meio da interação com servidores MCP do mundo real. Nosso benchmark abrange 6 domínios principais, abrangendo 11 servidores MCP diferentes: Navegação por Localização, Gerenciamento de Repositórios, Análise Financeira, Design 3D, Automação de Navegador e Busca na Web. Para garantir uma avaliação rigorosa, implementamos avaliadores baseados em execução, incluindo avaliadores de formato para conformidade com o formato do agente, avaliadores estáticos para correspondência de conteúdo invariante no tempo e avaliadores dinâmicos que recuperam automaticamente a verdade real em tempo real para tarefas temporalmente sensíveis. Por meio de uma extensa avaliação dos principais LLMs, descobrimos que até mesmo modelos de última geração, como GPT-5 (43,72%), Grok-4 (33,33%) e Claude-4.0-Sonnet (29,44%), exibem limitações significativas de desempenho. Além disso, nosso benchmark apresenta um desafio significativo de contexto longo para agentes LLM, já que o número de tokens de entrada aumenta rapidamente com o número de etapas de interação. Além disso, ele introduz um desafio de ferramentas desconhecidas, pois os agentes LLM frequentemente não estão familiarizados com o uso preciso dos servidores MCP. Notavelmente, agentes de nível empresarial, como o Cursor, não conseguem obter um desempenho melhor do que os frameworks ReAct padrão. Além da avaliação, disponibilizamos nosso framework de avaliação extensível com suporte a UI, permitindo que pesquisadores e profissionais integrem novos agentes e servidores MCP de forma contínua, promovendo a inovação no ecossistema MCP em rápida evolução.
English
The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching. To ensure rigorous evaluation, we implement execution-based evaluators, including format evaluators for agent format compliance, static evaluators for time-invariant content matching, and dynamic evaluators that automatically retrieve real-time ground truth for temporally sensitive tasks. Through extensive evaluation of leading LLMs, we find that even SOTA models such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit significant performance limitations. In addition, our benchmark poses a significant long-context challenge for LLM agents, as the number of input tokens increases rapidly with the number of interaction steps. Moreover, it introduces an unknown-tools challenge, as LLM agents often lack familiarity with the precise usage of the MCP servers. Notably, enterprise-level agents like Cursor cannot achieve better performance than standard ReAct frameworks. Beyond evaluation, we open-source our extensible evaluation framework with UI support, enabling researchers and practitioners to seamlessly integrate new agents and MCP servers while fostering innovation in the rapidly evolving MCP ecosystem.
PDF4210August 21, 2025