Arena dell'Agente Windows: Valutazione su larga scala degli Agenti OS Multi-Modalità

Abstract

I grandi modelli linguistici (LLM) mostrano un notevole potenziale per agire come agenti informatici, migliorando la produttività umana e l'accessibilità del software in compiti multimodali che richiedono pianificazione e ragionamento. Tuttavia, misurare le prestazioni degli agenti in ambienti realistici rimane una sfida poiché: (i) la maggior parte dei benchmark è limitata a specifiche modalità o domini (ad esempio solo testo, navigazione web, domande e risposte, codifica) e (ii) le valutazioni complete dei benchmark sono lente (dell'ordine di grandezza dei giorni) data la natura sequenziale a più passaggi dei compiti. Per affrontare queste sfide, presentiamo il Windows Agent Arena: un ambiente generale riproducibile che si concentra esclusivamente sul sistema operativo Windows, in cui gli agenti possono operare liberamente all'interno di un vero sistema operativo Windows e utilizzare la stessa ampia gamma di applicazioni, strumenti e browser web disponibili agli utenti umani quando risolvono compiti. Adattiamo il framework OSWorld (Xie et al., 2024) per creare oltre 150 compiti Windows diversi in rappresentativi domini che richiedono abilità degli agenti nella pianificazione, comprensione dello schermo e uso degli strumenti. Il nostro benchmark è scalabile e può essere parallelizzato senza problemi in Azure per una valutazione completa del benchmark in soli 20 minuti. Per dimostrare le capacità del Windows Agent Arena, presentiamo anche un nuovo agente multimodale, Navi. Il nostro agente raggiunge un tasso di successo del 19,5% nel dominio Windows, rispetto al 74,5% delle prestazioni di un essere umano non assistito. Navi dimostra inoltre una forte performance su un altro popolare benchmark basato sul web, Mind2Web. Offriamo un'ampia analisi quantitativa e qualitativa delle prestazioni di Navi e forniamo spunti sulle opportunità per futuri sviluppi di ricerca nello sviluppo degli agenti e nella generazione di dati utilizzando il Windows Agent Arena. Sito web: https://microsoft.github.io/WindowsAgentArena Codice: https://github.com/microsoft/WindowsAgentArena

English

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Arena dell'Agente Windows: Valutazione su larga scala degli Agenti OS Multi-Modalità

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Abstract

Summary

Support

Support