MCPEval : Évaluation Automatique Profonde Basée sur MCP pour les Modèles d'Agents IA
MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models
July 17, 2025
papers.authors: Zhiwei Liu, Jielin Qiu, Shiyu Wang, Jianguo Zhang, Zuxin Liu, Roshan Ram, Haolin Chen, Weiran Yao, Huan Wang, Shelby Heinecke, Silvio Savarese, Caiming Xiong
cs.AI
papers.abstract
L'essor rapide des agents intelligents basés sur les modèles de langage de grande taille (LLMs) met en évidence la nécessité de cadres d'évaluation robustes et évolutifs. Les méthodes existantes s'appuient sur des benchmarks statiques et une collecte de données laborieuse, limitant ainsi l'évaluation pratique. Nous présentons \oursystemname, un cadre open-source basé sur le Protocole de Contexte de Modèle (MCP) qui automatise la génération de tâches de bout en bout et l'évaluation approfondie des agents LLM dans divers domaines. MCPEval standardise les métriques, s'intègre de manière transparente avec les outils natifs des agents et élimine l'effort manuel dans la construction de pipelines d'évaluation. Les résultats empiriques dans cinq domaines réels démontrent son efficacité à révéler des performances nuancées et spécifiques à chaque domaine. Nous rendons MCPEval public sur https://github.com/SalesforceAIResearch/MCPEval afin de promouvoir une évaluation reproductible et standardisée des agents LLM.
English
The rapid rise of Large Language Models (LLMs)-based intelligent agents
underscores the need for robust, scalable evaluation frameworks. Existing
methods rely on static benchmarks and labor-intensive data collection, limiting
practical assessment. We introduce \oursystemname, an open-source Model Context
Protocol (MCP)-based framework that automates end-to-end task generation and
deep evaluation of LLM agents across diverse domains. MCPEval standardizes
metrics, seamlessly integrates with native agent tools, and eliminates manual
effort in building evaluation pipelines. Empirical results across five
real-world domains show its effectiveness in revealing nuanced, domain-specific
performance. We publicly release MCPEval
https://github.com/SalesforceAIResearch/MCPEval to promote reproducible and
standardized LLM agent evaluation.