ChatPaper.aiChatPaper

Windows Agent Arena: Evaluatie van Multi-Modale Besturingssysteemagenten op Schaal

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

September 12, 2024
Auteurs: Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
cs.AI

Samenvatting

Grote taalmodellen (LLM's) tonen opmerkelijk potentieel om op te treden als computeragenten, waardoor menselijke productiviteit en softwaretoegankelijkheid worden verbeterd in multimodale taken die planning en redenering vereisen. Het meten van de prestaties van agenten in realistische omgevingen blijft echter een uitdaging, aangezien: (i) de meeste benchmarks beperkt zijn tot specifieke modaliteiten of domeinen (bijv. alleen tekst, webnavigatie, vraag en antwoord, codering) en (ii) volledige benchmarkevaluaties traag zijn (op de orde van grootte van dagen) gezien de meerstaps sequentiële aard van taken. Om deze uitdagingen aan te pakken, introduceren we de Windows Agent Arena: een reproduceerbare, algemene omgeving die zich uitsluitend richt op het Windows-besturingssysteem (OS) waar agenten vrij kunnen opereren binnen een echt Windows OS en dezelfde brede scala aan applicaties, tools en webbrowsers kunnen gebruiken die beschikbaar zijn voor menselijke gebruikers bij het oplossen van taken. We passen het OSWorld-framework (Xie et al., 2024) aan om meer dan 150 diverse Windows-taken te creëren over representatieve domeinen die agentcapaciteiten vereisen op het gebied van planning, schermbegrip en het gebruik van tools. Onze benchmark is schaalbaar en kan naadloos parallel worden uitgevoerd in Azure voor een volledige benchmarkevaluatie in slechts 20 minuten. Om de mogelijkheden van Windows Agent Arena te demonstreren, introduceren we ook een nieuwe multimodale agent, Navi. Onze agent behaalt een succespercentage van 19,5% in het Windows-domein, vergeleken met een prestatie van 74,5% van een ongeassisteerde mens. Navi toont ook sterke prestaties op een ander populair op het web gebaseerde benchmark, Mind2Web. We bieden uitgebreide kwantitatieve en kwalitatieve analyse van de prestaties van Navi, en geven inzichten in de mogelijkheden voor toekomstig onderzoek op het gebied van agentontwikkeling en gegevensgeneratie met behulp van Windows Agent Arena. Webpagina: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena
English
Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Summary

AI-Generated Summary

PDF482November 16, 2024