MCPEval: Evaluación Profunda Automática Basada en MCP para Modelos de Agentes de IA
MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models
July 17, 2025
Autores: Zhiwei Liu, Jielin Qiu, Shiyu Wang, Jianguo Zhang, Zuxin Liu, Roshan Ram, Haolin Chen, Weiran Yao, Huan Wang, Shelby Heinecke, Silvio Savarese, Caiming Xiong
cs.AI
Resumen
El rápido auge de los agentes inteligentes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) subraya la necesidad de marcos de evaluación robustos y escalables. Los métodos existentes dependen de benchmarks estáticos y de la recopilación de datos intensiva en mano de obra, lo que limita la evaluación práctica. Presentamos \oursystemname, un marco de código abierto basado en el Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés) que automatiza la generación de tareas de extremo a extremo y la evaluación profunda de agentes LLM en diversos dominios. MCPEval estandariza métricas, se integra sin problemas con las herramientas nativas de los agentes y elimina el esfuerzo manual en la construcción de pipelines de evaluación. Los resultados empíricos en cinco dominios del mundo real demuestran su eficacia para revelar un rendimiento matizado y específico del dominio. Publicamos MCPEval en https://github.com/SalesforceAIResearch/MCPEval para promover una evaluación reproducible y estandarizada de agentes LLM.
English
The rapid rise of Large Language Models (LLMs)-based intelligent agents
underscores the need for robust, scalable evaluation frameworks. Existing
methods rely on static benchmarks and labor-intensive data collection, limiting
practical assessment. We introduce \oursystemname, an open-source Model Context
Protocol (MCP)-based framework that automates end-to-end task generation and
deep evaluation of LLM agents across diverse domains. MCPEval standardizes
metrics, seamlessly integrates with native agent tools, and eliminates manual
effort in building evaluation pipelines. Empirical results across five
real-world domains show its effectiveness in revealing nuanced, domain-specific
performance. We publicly release MCPEval
https://github.com/SalesforceAIResearch/MCPEval to promote reproducible and
standardized LLM agent evaluation.