Arena de Agentes do Windows: Avaliando Agentes de Sistemas Operacionais Multi-Modais em Escala

Resumo

Grandes modelos de linguagem (LLMs) mostram um potencial notável para atuar como agentes de computador, aprimorando a produtividade humana e a acessibilidade de software em tarefas multimodais que exigem planejamento e raciocínio. No entanto, medir o desempenho do agente em ambientes realistas continua sendo um desafio, uma vez que: (i) a maioria dos benchmarks é limitada a modalidades ou domínios específicos (por exemplo, apenas texto, navegação na web, perguntas e respostas, codificação) e (ii) as avaliações completas dos benchmarks são lentas (da ordem de magnitude de dias) devido à natureza sequencial de várias etapas das tarefas. Para enfrentar esses desafios, apresentamos a Arena de Agentes do Windows: um ambiente geral e reproduzível focado exclusivamente no sistema operacional (SO) Windows, onde os agentes podem operar livremente dentro de um verdadeiro SO Windows e utilizar a mesma ampla gama de aplicativos, ferramentas e navegadores da web disponíveis para os usuários humanos ao resolver tarefas. Adaptamos o framework OSWorld (Xie et al., 2024) para criar mais de 150 tarefas diversas do Windows em domínios representativos que exigem habilidades do agente em planejamento, compreensão de tela e uso de ferramentas. Nosso benchmark é escalável e pode ser paralelizado de forma contínua no Azure para uma avaliação completa do benchmark em tão pouco quanto 20 minutos. Para demonstrar as capacidades da Arena de Agentes do Windows, também apresentamos um novo agente multimodal, Navi. Nosso agente alcança uma taxa de sucesso de 19,5% no domínio do Windows, em comparação com o desempenho de 74,5% de um humano não assistido. Navi também demonstra um bom desempenho em outro benchmark popular baseado na web, o Mind2Web. Oferecemos uma análise extensa quantitativa e qualitativa do desempenho de Navi e fornecemos insights sobre as oportunidades para futuras pesquisas no desenvolvimento de agentes e geração de dados usando a Arena de Agentes do Windows. Página da web: https://microsoft.github.io/WindowsAgentArena Código: https://github.com/microsoft/WindowsAgentArena

English

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Arena de Agentes do Windows: Avaliando Agentes de Sistemas Operacionais Multi-Modais em Escala

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Resumo

Support