OSWorld-MCP: Evaluación de la Invocación de Herramientas MCP en Agentes de Uso Informático

Resumen

Con los avances en capacidades de toma de decisiones y razonamiento, los agentes multimodales muestran un gran potencial en escenarios de aplicaciones informáticas. Las evaluaciones pasadas se han centrado principalmente en valorar las habilidades de interacción con interfaces gráficas (GUI), mientras que las capacidades de invocación de herramientas, como las habilitadas por el Model Context Protocol (MCP), han sido ampliamente ignoradas. Comparar agentes con invocación de herramientas integrada con aquellos evaluados solo en interacción GUI es inherentemente injusto. Presentamos OSWorld-MCP, el primer benchmark integral y justo para evaluar la invocación de herramientas, la operación de GUI y las habilidades de toma de decisiones de los agentes de uso informático en un entorno real. Diseñamos una novedosa pipeline automatizada de generación de código para crear herramientas y las combinamos con una selección curada de herramientas existentes. Una rigurosa validación manual produce 158 herramientas de alta calidad (que cubren 7 aplicaciones comunes), cada una verificada por su funcionalidad correcta, aplicabilidad práctica y versatilidad. Evaluaciones exhaustivas de agentes multimodales state-of-the-art en OSWorld-MCP muestran que las herramientas MCP generalmente mejoran las tasas de éxito de las tareas (por ejemplo, del 8.3% al 20.4% para OpenAI o3 en 15 pasos, del 40.1% al 43.3% para Claude 4 Sonnet en 50 pasos), subrayando la importancia de evaluar las capacidades de invocación de herramientas. Sin embargo, incluso los modelos más potentes tienen tasas de invocación de herramientas relativamente bajas, solo del 36.3%, lo que indica margen de mejora y resalta el desafío que representa el benchmark. Al medir explícitamente las habilidades de uso de herramientas MCP, OSWorld-MCP profundiza la comprensión de los agentes multimodales y establece un nuevo estándar para evaluar el rendimiento en entornos complejos asistidos por herramientas. Nuestro código, entorno y datos están disponibles públicamente en https://osworld-mcp.github.io.

English

With advances in decision-making and reasoning capabilities, multimodal agents show strong potential in computer application scenarios. Past evaluations have mainly assessed GUI interaction skills, while tool invocation abilities, such as those enabled by the Model Context Protocol (MCP), have been largely overlooked. Comparing agents with integrated tool invocation to those evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP, the first comprehensive and fair benchmark for assessing computer-use agents' tool invocation, GUI operation, and decision-making abilities in a real-world environment. We design a novel automated code-generation pipeline to create tools and combine them with a curated selection from existing tools. Rigorous manual validation yields 158 high-quality tools (covering 7 common applications), each verified for correct functionality, practical applicability, and versatility. Extensive evaluations of state-of-the-art multimodal agents on OSWorld-MCP show that MCP tools generally improve task success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1% to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of assessing tool invocation capabilities. However, even the strongest models have relatively low tool invocation rates, Only 36.3%, indicating room for improvement and highlighting the benchmark's challenge. By explicitly measuring MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents and sets a new standard for evaluating performance in complex, tool-assisted environments. Our code, environment, and data are publicly available at https://osworld-mcp.github.io.

OSWorld-MCP: Evaluación de la Invocación de Herramientas MCP en Agentes de Uso Informático

OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

Resumen

Support