OSWorld-MCP: Benchmark per la Valutazione dell'Invoco di Strumenti MCP negli Agenti di Utilizzo del Computer
OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents
October 28, 2025
Autori: Hongrui Jia, Jitong Liao, Xi Zhang, Haiyang Xu, Tianbao Xie, Chaoya Jiang, Ming Yan, Si Liu, Wei Ye, Fei Huang
cs.AI
Abstract
Con i progressi nelle capacità di ragionamento e decisione, gli agenti multimodali mostrano un forte potenziale negli scenari applicativi informatici. Le valutazioni passate si sono concentrate principalmente sulle abilità di interazione con interfacce grafiche (GUI), mentre le capacità di invocazione di strumenti, come quelle abilitate dal Model Context Protocol (MCP), sono state ampiamente trascurate. Confrontare agenti con invocazione di strumenti integrata con quelli valutati solo sull'interazione GUI è intrinsecamente iniquo. Presentiamo OSWorld-MCP, il primo benchmark completo ed equo per valutare le capacità di invocazione di strumenti, operazione GUI e decisione degli agenti per l'uso del computer in un ambiente reale. Progettiamo una innovativa pipeline automatizzata di generazione di codice per creare strumenti e li combiniamo con una selezione curata da strumenti esistenti. Una rigorosa validazione manuale produce 158 strumenti di alta qualità (che coprono 7 applicazioni comuni), ciascuno verificato per correttezza funzionale, applicabilità pratica e versatilità. Valutazioni estensive su agenti multimodali all'avanguardia condotte con OSWorld-MCP mostrano che gli strumenti MCP generalmente migliorano i tassi di successo dei task (ad esempio, dall'8.3% al 20.4% per OpenAI o3 a 15 step, dal 40.1% al 43.3% per Claude 4 Sonnet a 50 step), sottolineando l'importanza di valutare le capacità di invocazione degli strumenti. Tuttavia, anche i modelli più potenti presentano tassi di invocazione degli strumenti relativamente bassi, solo il 36.3%, indicando margini di miglioramento ed evidenziando la sfida posta dal benchmark. Misurando esplicitamente le abilità di utilizzo degli strumenti MCP, OSWorld-MCP approfondisce la comprensione degli agenti multimodali e stabilisce un nuovo standard per valutare le prestazioni in ambienti complessi e assistiti da strumenti. Il nostro codice, ambiente e dati sono pubblicamente disponibili su https://osworld-mcp.github.io.
English
With advances in decision-making and reasoning capabilities, multimodal
agents show strong potential in computer application scenarios. Past
evaluations have mainly assessed GUI interaction skills, while tool invocation
abilities, such as those enabled by the Model Context Protocol (MCP), have been
largely overlooked. Comparing agents with integrated tool invocation to those
evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP,
the first comprehensive and fair benchmark for assessing computer-use agents'
tool invocation, GUI operation, and decision-making abilities in a real-world
environment. We design a novel automated code-generation pipeline to create
tools and combine them with a curated selection from existing tools. Rigorous
manual validation yields 158 high-quality tools (covering 7 common
applications), each verified for correct functionality, practical
applicability, and versatility. Extensive evaluations of state-of-the-art
multimodal agents on OSWorld-MCP show that MCP tools generally improve task
success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1%
to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of
assessing tool invocation capabilities. However, even the strongest models have
relatively low tool invocation rates, Only 36.3%, indicating room for
improvement and highlighting the benchmark's challenge. By explicitly measuring
MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents
and sets a new standard for evaluating performance in complex, tool-assisted
environments. Our code, environment, and data are publicly available at
https://osworld-mcp.github.io.