OSWorld-MCP: Avaliação de Invocação de Ferramentas MCP em Agentes de Uso de Computador
OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents
October 28, 2025
Autores: Hongrui Jia, Jitong Liao, Xi Zhang, Haiyang Xu, Tianbao Xie, Chaoya Jiang, Ming Yan, Si Liu, Wei Ye, Fei Huang
cs.AI
Resumo
Com os avanços nas capacidades de tomada de decisão e raciocínio, os agentes multimodais mostram um forte potencial em cenários de aplicação informática. As avaliações anteriores centraram-se principalmente nas competências de interação com interfaces gráficas (GUI), enquanto as capacidades de invocação de ferramentas, como as possibilitadas pelo Model Context Protocol (MCP), têm sido largamente negligenciadas. Comparar agentes com invocação de ferramentas integrada com outros avaliados apenas na interação com GUI é inerentemente injusto. Apresentamos o OSWorld-MCP, o primeiro benchmark abrangente e justo para avaliar a invocação de ferramentas, a operação de GUI e as capacidades de tomada de decisão de agentes de uso informático num ambiente real. Concebemos um *pipeline* inovador de geração automática de código para criar ferramentas e combinámo-las com uma seleção curada de ferramentas existentes. Uma validação manual rigorosa resultou em 158 ferramentas de alta qualidade (abrangendo 7 aplicações comuns), cada uma verificada quanto à funcionalidade correta, aplicabilidade prática e versatilidade. Avaliações extensivas de agentes multimodais state-of-the-art no OSWorld-MCP mostram que as ferramentas MCP geralmente melhoram as taxas de sucesso das tarefas (por exemplo, de 8,3% para 20,4% para o OpenAI o3 em 15 passos, e de 40,1% para 43,3% para o Claude 4 Sonnet em 50 passos), sublinhando a importância de avaliar as capacidades de invocação de ferramentas. No entanto, mesmo os modelos mais fortes apresentam taxas de invocação de ferramentas relativamente baixas, apenas 36,3%, indicando margem de melhoria e destacando o desafio proposto pelo benchmark. Ao medir explicitamente as competências de utilização de ferramentas MCP, o OSWorld-MCP aprofunda a compreensão dos agentes multimodais e estabelece um novo padrão para avaliar o desempenho em ambientes complexos e assistidos por ferramentas. O nosso código, ambiente e dados estão publicamente disponíveis em https://osworld-mcp.github.io.
English
With advances in decision-making and reasoning capabilities, multimodal
agents show strong potential in computer application scenarios. Past
evaluations have mainly assessed GUI interaction skills, while tool invocation
abilities, such as those enabled by the Model Context Protocol (MCP), have been
largely overlooked. Comparing agents with integrated tool invocation to those
evaluated only on GUI interaction is inherently unfair. We present OSWorld-MCP,
the first comprehensive and fair benchmark for assessing computer-use agents'
tool invocation, GUI operation, and decision-making abilities in a real-world
environment. We design a novel automated code-generation pipeline to create
tools and combine them with a curated selection from existing tools. Rigorous
manual validation yields 158 high-quality tools (covering 7 common
applications), each verified for correct functionality, practical
applicability, and versatility. Extensive evaluations of state-of-the-art
multimodal agents on OSWorld-MCP show that MCP tools generally improve task
success rates (e.g., from 8.3% to 20.4% for OpenAI o3 at 15 steps, from 40.1%
to 43.3% for Claude 4 Sonnet at 50 steps), underscoring the importance of
assessing tool invocation capabilities. However, even the strongest models have
relatively low tool invocation rates, Only 36.3%, indicating room for
improvement and highlighting the benchmark's challenge. By explicitly measuring
MCP tool usage skills, OSWorld-MCP deepens understanding of multimodal agents
and sets a new standard for evaluating performance in complex, tool-assisted
environments. Our code, environment, and data are publicly available at
https://osworld-mcp.github.io.