ChatPaper.aiChatPaper

Arène de l'Agent Windows : Évaluation à grande échelle des Agents OS Multi-Modaux

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

September 12, 2024
Auteurs: Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
cs.AI

Résumé

Les grands modèles de langage (LLM) montrent un potentiel remarquable pour agir en tant qu'agents informatiques, améliorant la productivité humaine et l'accessibilité des logiciels dans des tâches multimodales nécessitant de la planification et du raisonnement. Cependant, mesurer les performances des agents dans des environnements réalistes reste un défi car : (i) la plupart des références sont limitées à des modalités ou domaines spécifiques (par exemple, uniquement du texte, navigation web, questions-réponses, codage) et (ii) les évaluations complètes des références sont lentes (de l'ordre de grandeur des jours) en raison de la nature séquentielle multi-étapes des tâches. Pour relever ces défis, nous introduisons l'Arena des Agents Windows : un environnement reproductible et général se concentrant exclusivement sur le système d'exploitation Windows où les agents peuvent opérer librement au sein d'un véritable système d'exploitation Windows et utiliser la même large gamme d'applications, d'outils et de navigateurs web disponibles pour les utilisateurs humains lors de la résolution de tâches. Nous adaptons le cadre OSWorld (Xie et al., 2024) pour créer plus de 150 tâches Windows diverses couvrant des domaines représentatifs nécessitant des capacités des agents en planification, compréhension de l'écran et utilisation d'outils. Notre référence est évolutive et peut être parallélisée de manière transparente dans Azure pour une évaluation complète de la référence en aussi peu que 20 minutes. Pour démontrer les capacités de l'Arena des Agents Windows, nous introduisons également un nouvel agent multimodal, Navi. Notre agent atteint un taux de réussite de 19,5 % dans le domaine Windows, comparé à une performance de 74,5 % d'un humain non assisté. Navi démontre également de bonnes performances sur une autre référence populaire basée sur le web, Mind2Web. Nous offrons une analyse quantitative et qualitative approfondie des performances de Navi, et fournissons des perspectives sur les opportunités de recherche future dans le développement des agents et la génération de données en utilisant l'Arena des Agents Windows. Page Web : https://microsoft.github.io/WindowsAgentArena Code : https://github.com/microsoft/WindowsAgentArena
English
Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Summary

AI-Generated Summary

PDF482November 16, 2024