ChatPaper.aiChatPaper

Агент Windows Arena: Оценка многофункциональных операционных системных агентов в масштабе.

Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

September 12, 2024
Авторы: Rogerio Bonatti, Dan Zhao, Francesco Bonacci, Dillon Dupont, Sara Abdali, Yinheng Li, Justin Wagle, Kazuhito Koishida, Arthur Bucker, Lawrence Jang, Zack Hui
cs.AI

Аннотация

Большие языковые модели (LLM) показывают выдающийся потенциал для действия в качестве компьютерных агентов, повышая производительность человека и доступность программного обеспечения в мультимодальных задачах, требующих планирования и рассуждений. Однако измерение производительности агента в реалистичных средах остается вызовом, поскольку: (i) большинство бенчмарков ограничены конкретными модальностями или областями (например, только текст, навигация в Интернете, вопросно-ответные системы, программирование) и (ii) полные оценки бенчмарков занимают много времени (порядка дней) из-за многошаговой последовательной природы задач. Для решения этих проблем мы представляем Windows Agent Arena: воспроизводимую общую среду, сосредоточенную исключительно на операционной системе Windows, где агенты могут свободно действовать в реальной операционной системе Windows и использовать тот же широкий спектр приложений, инструментов и веб-браузеров, доступных человеческим пользователям при решении задач. Мы адаптируем фреймворк OSWorld (Сиэ и др., 2024) для создания 150+ разнообразных задач Windows в представительных областях, требующих умений агента в планировании, понимании экрана и использовании инструментов. Наш бенчмарк масштабируем и может быть легко параллельно выполнен в Azure для полной оценки бенчмарка всего за 20 минут. Для демонстрации возможностей Windows Agent Arena мы также представляем нового мультимодального агента, Navi. Наш агент достигает показателя успешности 19,5% в области Windows по сравнению с производительностью 74,5% непомощенного человека. Navi также демонстрирует высокую производительность на другом популярном веб-бенчмарке, Mind2Web. Мы предлагаем обширный количественный и качественный анализ производительности Navi и предоставляем идеи для будущих исследований в области развития агентов и генерации данных с использованием Windows Agent Arena. Веб-страница: https://microsoft.github.io/WindowsAgentArena Код: https://github.com/microsoft/WindowsAgentArena
English
Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena's capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi's performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

Summary

AI-Generated Summary

PDF482November 16, 2024