OSWorld-MCP: Benchmark per la Valutazione dell'Invoco di Strumenti MCP negli Agenti di Utilizzo del Computer

Abstract

Con i progressi nelle capacità di ragionamento e decisione, gli agenti multimodali mostrano un forte potenziale negli scenari applicativi informatici. Le valutazioni passate si sono concentrate principalmente sulle abilità di interazione con interfacce grafiche (GUI), mentre le capacità di invocazione di strumenti, come quelle abilitate dal Model Context Protocol (MCP), sono state ampiamente trascurate. Confrontare agenti con invocazione di strumenti integrata con quelli valutati solo sull'interazione GUI è intrinsecamente iniquo. Presentiamo OSWorld-MCP, il primo benchmark completo ed equo per valutare le capacità di invocazione di strumenti, operazione GUI e decisione degli agenti per l'uso del computer in un ambiente reale. Progettiamo una innovativa pipeline automatizzata di generazione di codice per creare strumenti e li combiniamo con una selezione curata da strumenti esistenti. Una rigorosa validazione manuale produce 158 strumenti di alta qualità (che coprono 7 applicazioni comuni), ciascuno verificato per correttezza funzionale, applicabilità pratica e versatilità. Valutazioni estensive su agenti multimodali all'avanguardia condotte con OSWorld-MCP mostrano che gli strumenti MCP generalmente migliorano i tassi di successo dei task (ad esempio, dall'8.3% al 20.4% per OpenAI o3 a 15 step, dal 40.1% al 43.3% per Claude 4 Sonnet a 50 step), sottolineando l'importanza di valutare le capacità di invocazione degli strumenti. Tuttavia, anche i modelli più potenti presentano tassi di invocazione degli strumenti relativamente bassi, solo il 36.3%, indicando margini di miglioramento ed evidenziando la sfida posta dal benchmark. Misurando esplicitamente le abilità di utilizzo degli strumenti MCP, OSWorld-MCP approfondisce la comprensione degli agenti multimodali e stabilisce un nuovo standard per valutare le prestazioni in ambienti complessi e assistiti da strumenti. Il nostro codice, ambiente e dati sono pubblicamente disponibili su https://osworld-mcp.github.io.

English

With advances in decision-making and reasoning capabilities, multimodal agents show strong potential in computer application scenarios. Past evaluations have mainly assessed GUI interaction skills, while tool invocation abilities, such as those enabled by the Model Context Protocol (MCP), have been largely overlooked. Comparing agents with integrated tool invocation to those evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP, the first comprehensive and fair benchmark for assessing computer-use agents' tool invocation, GUI operation, and decision-making abilities in a real-world environment. We design a novel automated code-generation pipeline to create tools and combine them with a curated selection from existing tools. Rigorous manual validation yields 158 high-quality tools (covering 7 common applications), each verified for correct functionality, practical applicability, and versatility. Extensive evaluations of state-of-the-art multimodal agents on OSWorld-MCP show that MCP tools generally improve task success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1% to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of assessing tool invocation capabilities. However, even the strongest models have relatively low tool invocation rates, Only 36.3%, indicating room for improvement and highlighting the benchmark's challenge. By explicitly measuring MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents and sets a new standard for evaluating performance in complex, tool-assisted environments. Our code, environment, and data are publicly available at https://osworld-mcp.github.io.

OSWorld-MCP: Benchmark per la Valutazione dell'Invoco di Strumenti MCP negli Agenti di Utilizzo del Computer

OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

Abstract

Support