ChatPaper.aiChatPaper

MCP-AgentBench: Оценка производительности языковых агентов в реальных условиях с использованием инструментов, опосредованных MCP

MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

September 10, 2025
Авторы: Zikang Guo, Benfeng Xu, Chiwei Zhu, Wentao Hong, Xiaorui Wang, Zhendong Mao
cs.AI

Аннотация

Протокол Model Context Protocol (MCP) стремительно становится ключевым открытым стандартом, разработанным для улучшения интеграции и взаимодействия агентов с инструментами, и позиционируется как катализатор новой эры мощных, взаимосвязанных и по-настоящему полезных агентных систем искусственного интеллекта. Однако, несмотря на растущее внедрение MCP, существующие тестовые наборы зачастую не способны адекватно оценить производительность агентов в реальных условиях в рамках этой новой парадигмы, что приводит к искажённому восприятию их истинной операционной ценности и невозможности достоверно дифференцировать их компетенции. Чтобы устранить этот критический пробел в оценке, мы представляем MCP-AgentBench — всеобъемлющий тестовый набор, специально разработанный для тщательной оценки возможностей языковых агентов в условиях взаимодействия с инструментами, опосредованного MCP. Основные вклады MCP-AgentBench включают: создание надёжной тестовой среды MCP, состоящей из 33 операционных серверов с 188 уникальными инструментами; разработку тестового набора, включающего 600 систематически спроектированных запросов, распределённых по 6 различным категориям с разной степенью сложности взаимодействия; а также введение MCP-Eval — новой методологии оценки, ориентированной на результат и приоритизирующей успешное выполнение реальных задач. Благодаря обширной эмпирической оценке ведущих языковых агентов мы предоставляем фундаментальные инсайты. MCP-AgentBench призван снабдить исследовательское сообщество стандартизированной и надёжной структурой для создания, валидации и совершенствования агентов, способных в полной мере использовать трансформационные преимущества MCP, тем самым ускоряя прогресс в направлении создания по-настоящему способных и взаимодействующих систем искусственного интеллекта.
English
The Model Context Protocol (MCP) is rapidly emerging as a pivotal open standard, designed to enhance agent-tool integration and interoperability, and is positioned to unlock a new era of powerful, interconnected, and genuinely utilitarian agentic AI. However, despite MCP's growing adoption, existing benchmarks often fail to capture real-world agent performance within this new paradigm, leading to a distorted perception of their true operational value and an inability to reliably differentiate proficiencies. To bridge this critical evaluation gap, we introduce MCP-AgentBench -- a comprehensive benchmark specifically engineered to rigorously assess language agent capabilities in MCP-mediated tool interactions. Core contributions of MCP-AgentBench include: the establishment of a robust MCP testbed comprising 33 operational servers with 188 distinct tools; the development of a benchmark featuring 600 systematically designed queries distributed across 6 distinct categories of varying interaction complexity; and the introduction of MCP-Eval, a novel outcome-oriented evaluation methodology prioritizing real-world task success. Through extensive empirical evaluation of leading language agents, we provide foundational insights. MCP-AgentBench aims to equip the research community with a standardized and reliable framework to build, validate, and advance agents capable of fully leveraging MCP's transformative benefits, thereby accelerating progress toward truly capable and interoperable AI systems.
PDF153September 15, 2025