ChatPaper.aiChatPaper

MCPEval : Évaluation Automatique Profonde Basée sur MCP pour les Modèles d'Agents IA

MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models

July 17, 2025
papers.authors: Zhiwei Liu, Jielin Qiu, Shiyu Wang, Jianguo Zhang, Zuxin Liu, Roshan Ram, Haolin Chen, Weiran Yao, Huan Wang, Shelby Heinecke, Silvio Savarese, Caiming Xiong
cs.AI

papers.abstract

L'essor rapide des agents intelligents basés sur les modèles de langage de grande taille (LLMs) met en évidence la nécessité de cadres d'évaluation robustes et évolutifs. Les méthodes existantes s'appuient sur des benchmarks statiques et une collecte de données laborieuse, limitant ainsi l'évaluation pratique. Nous présentons \oursystemname, un cadre open-source basé sur le Protocole de Contexte de Modèle (MCP) qui automatise la génération de tâches de bout en bout et l'évaluation approfondie des agents LLM dans divers domaines. MCPEval standardise les métriques, s'intègre de manière transparente avec les outils natifs des agents et élimine l'effort manuel dans la construction de pipelines d'évaluation. Les résultats empiriques dans cinq domaines réels démontrent son efficacité à révéler des performances nuancées et spécifiques à chaque domaine. Nous rendons MCPEval public sur https://github.com/SalesforceAIResearch/MCPEval afin de promouvoir une évaluation reproductible et standardisée des agents LLM.
English
The rapid rise of Large Language Models (LLMs)-based intelligent agents underscores the need for robust, scalable evaluation frameworks. Existing methods rely on static benchmarks and labor-intensive data collection, limiting practical assessment. We introduce \oursystemname, an open-source Model Context Protocol (MCP)-based framework that automates end-to-end task generation and deep evaluation of LLM agents across diverse domains. MCPEval standardizes metrics, seamlessly integrates with native agent tools, and eliminates manual effort in building evaluation pipelines. Empirical results across five real-world domains show its effectiveness in revealing nuanced, domain-specific performance. We publicly release MCPEval https://github.com/SalesforceAIResearch/MCPEval to promote reproducible and standardized LLM agent evaluation.
PDF141July 22, 2025