Arena de Agentes do Windows: Avaliando Agentes de Sistemas Operacionais Multi-Modais em Escala
Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale
September 12, 2024
Autores: Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) mostram um potencial notável para atuar como agentes de computador, aprimorando a produtividade humana e a acessibilidade de software em tarefas multimodais que exigem planejamento e raciocínio. No entanto, medir o desempenho do agente em ambientes realistas continua sendo um desafio, uma vez que: (i) a maioria dos benchmarks é limitada a modalidades ou domínios específicos (por exemplo, apenas texto, navegação na web, perguntas e respostas, codificação) e (ii) as avaliações completas dos benchmarks são lentas (da ordem de magnitude de dias) devido à natureza sequencial de várias etapas das tarefas. Para enfrentar esses desafios, apresentamos a Arena de Agentes do Windows: um ambiente geral e reproduzível focado exclusivamente no sistema operacional (SO) Windows, onde os agentes podem operar livremente dentro de um verdadeiro SO Windows e utilizar a mesma ampla gama de aplicativos, ferramentas e navegadores da web disponíveis para os usuários humanos ao resolver tarefas. Adaptamos o framework OSWorld (Xie et al., 2024) para criar mais de 150 tarefas diversas do Windows em domínios representativos que exigem habilidades do agente em planejamento, compreensão de tela e uso de ferramentas. Nosso benchmark é escalável e pode ser paralelizado de forma contínua no Azure para uma avaliação completa do benchmark em tão pouco quanto 20 minutos. Para demonstrar as capacidades da Arena de Agentes do Windows, também apresentamos um novo agente multimodal, Navi. Nosso agente alcança uma taxa de sucesso de 19,5% no domínio do Windows, em comparação com o desempenho de 74,5% de um humano não assistido. Navi também demonstra um bom desempenho em outro benchmark popular baseado na web, o Mind2Web. Oferecemos uma análise extensa quantitativa e qualitativa do desempenho de Navi e fornecemos insights sobre as oportunidades para futuras pesquisas no desenvolvimento de agentes e geração de dados usando a Arena de Agentes do Windows.
Página da web: https://microsoft.github.io/WindowsAgentArena
Código: https://github.com/microsoft/WindowsAgentArena
English
Large language models (LLMs) show remarkable potential to act as computer
agents, enhancing human productivity and software accessibility in multi-modal
tasks that require planning and reasoning. However, measuring agent performance
in realistic environments remains a challenge since: (i) most benchmarks are
limited to specific modalities or domains (e.g. text-only, web navigation, Q&A,
coding) and (ii) full benchmark evaluations are slow (on order of magnitude of
days) given the multi-step sequential nature of tasks. To address these
challenges, we introduce the Windows Agent Arena: a reproducible, general
environment focusing exclusively on the Windows operating system (OS) where
agents can operate freely within a real Windows OS and use the same wide range
of applications, tools, and web browsers available to human users when solving
tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse
Windows tasks across representative domains that require agent abilities in
planning, screen understanding, and tool usage. Our benchmark is scalable and
can be seamlessly parallelized in Azure for a full benchmark evaluation in as
little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we
also introduce a new multi-modal agent, Navi. Our agent achieves a success rate
of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted
human. Navi also demonstrates strong performance on another popular web-based
benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis
of Navi's performance, and provide insights into the opportunities for future
research in agent development and data generation using Windows Agent Arena.
Webpage: https://microsoft.github.io/WindowsAgentArena
Code: https://github.com/microsoft/WindowsAgentArenaSummary
AI-Generated Summary