OSWorld-MCP: 컴퓨터 사용 에이전트의 MCP 도구 호출 성능 평가
OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents
October 28, 2025
저자: Hongrui Jia, Jitong Liao, Xi Zhang, Haiyang Xu, Tianbao Xie, Chaoya Jiang, Ming Yan, Si Liu, Wei Ye, Fei Huang
cs.AI
초록
의사 결정 및 추론 능력의 발전으로 멀티모달 에이전트는 컴퓨터 응용 시나리오에서 강력한 잠재력을 보여주고 있습니다. 기존 평가는 주로 GUI 상호작용 능력을 평가해 왔으나, Model Context Protocol(MCP)으로 가능해진 도구 호출 능력은 크게 간과되어 왔습니다. 통합된 도구 호출 기능을 갖춘 에이전트와 GUI 상호작용만 평가된 에이전트를 비교하는 것은 본질적으로 공정하지 않습니다. 본 논문에서는 실제 환경에서 컴퓨터 사용 에이전트의 도구 호출, GUI 조작, 의사 결정 능력을 평가하기 위한 최초의 포괄적이고 공정한 벤치마크인 OSWorld-MCP를 소개합니다. 우리는 도구를 생성하기 위한 새로운 자동 코드 생성 파이프라인을 설계하고 이를 기존 도구에서 선별한 항목과 결합합니다. 엄격한 수동 검증을 통해 기능 정확성, 실용적 적용 가능성, 다용성까지 검증된 158개의 고품질 도구(7개의 일반적인 응용 프로그램 범주)를 확보했습니다. OSWorld-MCP에서 최첨단 멀티모달 에이전트에 대한 광범위한 평가를 수행한 결과, MCP 도구가 일반적으로 작업 성공률을 향상시키는 것으로 나타났습니다(예: OpenAI o3의 경우 15단계에서 8.3%에서 20.4%로, Claude 4 Sonnet의 경우 50단계에서 40.1%에서 43.3%로). 이는 도구 호출 능력 평가의 중요성을 강조합니다. 그러나 가장 강력한 모델조차도 도구 호출률이 상대적으로 낮아(36.3%에 불과) 개선의 여지가 있음을 시사하며 이 벤치마크의 과제 수준을 보여줍니다. MCP 도구 사용 능력을 명시적으로 측정함으로써, OSWorld-MCP는 멀티모달 에이전트에 대한 이해를 심화하고 복잡한 도구 지원 환경에서의 성능 평가를 위한 새로운 표준을 제시합니다. 우리의 코드, 환경 및 데이터는 https://osworld-mcp.github.io에서 공개되어 있습니다.
English
With advances in decision-making and reasoning capabilities, multimodal
agents show strong potential in computer application scenarios. Past
evaluations have mainly assessed GUI interaction skills, while tool invocation
abilities, such as those enabled by the Model Context Protocol (MCP), have been
largely overlooked. Comparing agents with integrated tool invocation to those
evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP,
the first comprehensive and fair benchmark for assessing computer-use agents'
tool invocation, GUI operation, and decision-making abilities in a real-world
environment. We design a novel automated code-generation pipeline to create
tools and combine them with a curated selection from existing tools. Rigorous
manual validation yields 158 high-quality tools (covering 7 common
applications), each verified for correct functionality, practical
applicability, and versatility. Extensive evaluations of state-of-the-art
multimodal agents on OSWorld-MCP show that MCP tools generally improve task
success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1%
to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of
assessing tool invocation capabilities. However, even the strongest models have
relatively low tool invocation rates, Only 36.3%, indicating room for
improvement and highlighting the benchmark's challenge. By explicitly measuring
MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents
and sets a new standard for evaluating performance in complex, tool-assisted
environments. Our code, environment, and data are publicly available at
https://osworld-mcp.github.io.