ChatPaper.aiChatPaper

MCP-Universe: Evaluación de Modelos de Lenguaje de Gran Escala con Servidores de Protocolo de Contexto del Mundo Real

MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers

August 20, 2025
Autores: Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, Junnan Li
cs.AI

Resumen

El Protocolo de Contexto del Modelo (MCP) ha surgido como un estándar transformador para conectar modelos de lenguaje grandes (LLMs) con fuentes de datos externas y herramientas, ganando rápidamente adopción entre los principales proveedores de IA y plataformas de desarrollo. Sin embargo, los puntos de referencia existentes son demasiado simplistas y no logran capturar los desafíos de aplicaciones reales, como el razonamiento a largo plazo y espacios de herramientas grandes y desconocidos. Para abordar esta brecha crítica, presentamos MCP-Universe, el primer punto de referencia integral diseñado específicamente para evaluar LLMs en tareas realistas y complejas mediante la interacción con servidores MCP del mundo real. Nuestro punto de referencia abarca 6 dominios principales que cubren 11 servidores MCP diferentes: Navegación de Ubicación, Gestión de Repositorios, Análisis Financiero, Diseño 3D, Automatización de Navegadores y Búsqueda Web. Para garantizar una evaluación rigurosa, implementamos evaluadores basados en ejecución, incluyendo evaluadores de formato para el cumplimiento del formato del agente, evaluadores estáticos para la coincidencia de contenido invariante en el tiempo y evaluadores dinámicos que recuperan automáticamente la verdad fundamental en tiempo real para tareas sensibles al tiempo. A través de una evaluación extensa de los principales LLMs, encontramos que incluso modelos de última generación como GPT-5 (43.72%), Grok-4 (33.33%) y Claude-4.0-Sonnet (29.44%) muestran limitaciones significativas en su rendimiento. Además, nuestro punto de referencia plantea un desafío significativo de contexto largo para los agentes LLM, ya que el número de tokens de entrada aumenta rápidamente con el número de pasos de interacción. Además, introduce un desafío de herramientas desconocidas, ya que los agentes LLM a menudo carecen de familiaridad con el uso preciso de los servidores MCP. Notablemente, agentes de nivel empresarial como Cursor no pueden lograr un mejor rendimiento que los marcos ReAct estándar. Más allá de la evaluación, liberamos nuestro marco de evaluación extensible con soporte de interfaz de usuario, permitiendo que investigadores y profesionales integren sin problemas nuevos agentes y servidores MCP, fomentando la innovación en el ecosistema MCP en rápida evolución.
English
The Model Context Protocol has emerged as a transformative standard for connecting large language models to external data sources and tools, rapidly gaining adoption across major AI providers and development platforms. However, existing benchmarks are overly simplistic and fail to capture real application challenges such as long-horizon reasoning and large, unfamiliar tool spaces. To address this critical gap, we introduce MCP-Universe, the first comprehensive benchmark specifically designed to evaluate LLMs in realistic and hard tasks through interaction with real-world MCP servers. Our benchmark encompasses 6 core domains spanning 11 different MCP servers: Location Navigation, Repository Management, Financial Analysis, 3D Design, Browser Automation, and Web Searching. To ensure rigorous evaluation, we implement execution-based evaluators, including format evaluators for agent format compliance, static evaluators for time-invariant content matching, and dynamic evaluators that automatically retrieve real-time ground truth for temporally sensitive tasks. Through extensive evaluation of leading LLMs, we find that even SOTA models such as GPT-5 (43.72%), Grok-4 (33.33%) and Claude-4.0-Sonnet (29.44%) exhibit significant performance limitations. In addition, our benchmark poses a significant long-context challenge for LLM agents, as the number of input tokens increases rapidly with the number of interaction steps. Moreover, it introduces an unknown-tools challenge, as LLM agents often lack familiarity with the precise usage of the MCP servers. Notably, enterprise-level agents like Cursor cannot achieve better performance than standard ReAct frameworks. Beyond evaluation, we open-source our extensible evaluation framework with UI support, enabling researchers and practitioners to seamlessly integrate new agents and MCP servers while fostering innovation in the rapidly evolving MCP ecosystem.
PDF337August 21, 2025