MCP-Universe: Evaluación de Modelos de Lenguaje de Gran Escala con Servidores de Protocolo de Contexto del Mundo Real
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
August 20, 2025
Autores: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI
Resumen
El Protocolo de Contexto del Modelo (MCP) ha surgido como un estándar transformador para conectar modelos de lenguaje grandes (LLMs) con fuentes de datos externas y herramientas, ganando rápidamente adopción entre los principales proveedores de IA y plataformas de desarrollo. Sin embargo, los puntos de referencia existentes son demasiado simplistas y no logran capturar los desafíos de aplicaciones reales, como el razonamiento a largo plazo y espacios de herramientas grandes y desconocidos. Para abordar esta brecha crítica, presentamos MCP-Universe, el primer punto de referencia integral diseñado específicamente para evaluar LLMs en tareas realistas y complejas mediante la interacción con servidores MCP del mundo real. Nuestro punto de referencia abarca 6 dominios principales que cubren 11 servidores MCP diferentes: Navegación de Ubicación, Gestión de Repositorios, Análisis Financiero, Diseño 3D, Automatización de Navegadores y Búsqueda Web. Para garantizar una evaluación rigurosa, implementamos evaluadores basados en ejecución, incluyendo evaluadores de formato para el cumplimiento del formato del agente, evaluadores estáticos para la coincidencia de contenido invariante en el tiempo y evaluadores dinámicos que recuperan automáticamente la verdad fundamental en tiempo real para tareas sensibles al tiempo. A través de una evaluación extensa de los principales LLMs, encontramos que incluso modelos de última generación como GPT-5 (43.72%), Grok-4 (33.33%) y Claude-4.0-Sonnet (29.44%) muestran limitaciones significativas en su rendimiento. Además, nuestro punto de referencia plantea un desafío significativo de contexto largo para los agentes LLM, ya que el número de tokens de entrada aumenta rápidamente con el número de pasos de interacción. Además, introduce un desafío de herramientas desconocidas, ya que los agentes LLM a menudo carecen de familiaridad con el uso preciso de los servidores MCP. Notablemente, agentes de nivel empresarial como Cursor no pueden lograr un mejor rendimiento que los marcos ReAct estándar. Más allá de la evaluación, liberamos nuestro marco de evaluación extensible con soporte de interfaz de usuario, permitiendo que investigadores y profesionales integren sin problemas nuevos agentes y servidores MCP, fomentando la innovación en el ecosistema MCP en rápida evolución.
English
The Model Context Protocol has emerged as a transformative standard for
connecting large language models to external data sources and tools, rapidly
gaining adoption across major AI providers and development platforms. However,
existing benchmarks are overly simplistic and fail to capture real application
challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To
address this critical gap, we introduce MCP-Universe, the first comprehensive
benchmark specifically designed to evaluate LLMs in realistic and hard tasks
through interaction with real-world MCP servers. Our benchmark encompasses 6
core domains spanning 11 different MCP servers: Location Navigation, Repository
Management, Financial Analysis, 3D Design, Browser Automation, and Web
Searching. To ensure rigorous evaluation, we implement execution-based
evaluators, including format evaluators for agent format compliance, static
evaluators for time-invariant content matching, and dynamic evaluators that
automatically retrieve real-time ground truth for temporally sensitive tasks.
Through extensive evaluation of leading LLMs, we find that even SOTA models
such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit
significant performance limitations. In addition, our benchmark poses a
significant long-context challenge for LLM agents, as the number of input
tokens increases rapidly with the number of interaction steps. Moreover, it
introduces an unknown-tools challenge, as LLM agents often lack familiarity
with the precise usage of the MCP servers. Notably, enterprise-level agents
like Cursor cannot achieve better performance than standard ReAct frameworks.
Beyond evaluation, we open-source our extensible evaluation framework with UI
support, enabling researchers and practitioners to seamlessly integrate new
agents and MCP servers while fostering innovation in the rapidly evolving MCP
ecosystem.