Windows Agent Arena: Evaluierung von Multi-Modalen Betriebssystem-Agenten im großen Maßstab

papers.abstract

Große Sprachmodelle (LLMs) zeigen bemerkenswertes Potenzial, als Computeragenten zu agieren und die menschliche Produktivität und die Zugänglichkeit von Software in multimodalen Aufgaben zu verbessern, die Planung und Schlussfolgerung erfordern. Die Messung der Leistung von Agenten in realistischen Umgebungen bleibt jedoch eine Herausforderung, da: (i) die meisten Benchmarks auf spezifische Modalitäten oder Domänen beschränkt sind (z. B. nur Text, Webnavigation, Frage-Antwort, Codierung) und (ii) vollständige Benchmark-Evaluationen aufgrund der mehrstufigen sequenziellen Natur von Aufgaben langsam sind (im Bereich von Tagen). Um diesen Herausforderungen zu begegnen, führen wir die Windows Agent Arena ein: eine reproduzierbare, allgemeine Umgebung, die sich ausschließlich auf das Windows-Betriebssystem (OS) konzentriert, in der Agenten frei innerhalb eines echten Windows OS agieren können und dieselbe breite Palette von Anwendungen, Tools und Webbrowsern nutzen können, die menschlichen Benutzern zur Verfügung stehen, wenn sie Aufgaben lösen. Wir passen das OSWorld-Framework (Xie et al., 2024) an, um über 150 verschiedene Windows-Aufgaben in repräsentativen Domänen zu erstellen, die Agentenfähigkeiten in Planung, Bildschirmverständnis und Werkzeugnutzung erfordern. Unser Benchmark ist skalierbar und kann nahtlos in Azure parallelisiert werden, um eine vollständige Benchmark-Evaluation in nur 20 Minuten durchzuführen. Um die Fähigkeiten der Windows Agent Arena zu demonstrieren, stellen wir auch einen neuen multimodalen Agenten, Navi, vor. Unser Agent erreicht eine Erfolgsquote von 19,5% im Windows-Bereich im Vergleich zur Leistung eines ununterstützten Menschen von 74,5%. Navi zeigt auch eine starke Leistung in einem anderen beliebten webbasierten Benchmark, Mind2Web. Wir bieten eine umfangreiche quantitative und qualitative Analyse der Leistung von Navi und geben Einblicke in die Möglichkeiten für zukünftige Forschung in der Agentenentwicklung und der Datengenerierung unter Verwendung der Windows Agent Arena. Webseite: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

English

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Windows Agent Arena: Evaluierung von Multi-Modalen Betriebssystem-Agenten im großen Maßstab

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

papers.abstract

Support