Agente de Windows Arena: Evaluación de Agentes de Sistemas Operativos Multi-Modales a Escala

Resumen

Los modelos de lenguaje grandes (LLMs) muestran un potencial notable para actuar como agentes informáticos, mejorando la productividad humana y la accesibilidad del software en tareas multimodales que requieren planificación y razonamiento. Sin embargo, medir el rendimiento del agente en entornos realistas sigue siendo un desafío, ya que: (i) la mayoría de los puntos de referencia se limitan a modalidades o dominios específicos (por ejemplo, solo texto, navegación web, preguntas y respuestas, codificación) y (ii) las evaluaciones completas de los puntos de referencia son lentas (del orden de magnitud de días) dada la naturaleza secuencial de múltiples pasos de las tareas. Para abordar estos desafíos, presentamos la Arena del Agente de Windows: un entorno general y reproducible centrado exclusivamente en el sistema operativo (SO) Windows, donde los agentes pueden operar libremente dentro de un verdadero SO Windows y utilizar la misma amplia gama de aplicaciones, herramientas y navegadores web disponibles para los usuarios humanos al resolver tareas. Adaptamos el marco OSWorld (Xie et al., 2024) para crear más de 150 tareas diversas de Windows en dominios representativos que requieren habilidades del agente en planificación, comprensión de pantalla y uso de herramientas. Nuestro punto de referencia es escalable y puede ser paralelizado sin problemas en Azure para una evaluación completa del punto de referencia en tan solo 20 minutos. Para demostrar las capacidades de la Arena del Agente de Windows, también presentamos un nuevo agente multimodal, Navi. Nuestro agente logra una tasa de éxito del 19.5% en el dominio de Windows, en comparación con el rendimiento del 74.5% de un humano sin asistencia. Navi también muestra un rendimiento sólido en otro punto de referencia popular basado en la web, Mind2Web. Ofrecemos un análisis cuantitativo y cualitativo extenso del rendimiento de Navi, y proporcionamos información sobre las oportunidades para futuras investigaciones en el desarrollo de agentes y la generación de datos utilizando la Arena del Agente de Windows. Página web: https://microsoft.github.io/WindowsAgentArena Código: https://github.com/microsoft/WindowsAgentArena

English

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Agente de Windows Arena: Evaluación de Agentes de Sistemas Operativos Multi-Modales a Escala

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

Resumen

Support