ChatPaper.aiChatPaper

UFO: Een UI-gericht agent voor interactie met Windows OS

UFO: A UI-Focused Agent for Windows OS Interaction

February 8, 2024
Auteurs: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Samenvatting

We introduceren UFO, een innovatieve UI-gerichte agent om gebruikersverzoeken uit te voeren die zijn afgestemd op applicaties binnen het Windows-besturingssysteem, waarbij de mogelijkheden van GPT-Vision worden benut. UFO maakt gebruik van een dual-agent framework om de grafische gebruikersinterface (GUI) en controle-informatie van Windows-applicaties nauwkeurig te observeren en te analyseren. Hierdoor kan de agent naadloos navigeren en opereren binnen individuele applicaties en daarbuiten om gebruikersverzoeken uit te voeren, zelfs wanneer deze meerdere applicaties omvatten. Het framework bevat een controle-interactiemodule, die actie-uitvoering mogelijk maakt zonder menselijke tussenkomst en volledig geautomatiseerde uitvoering ondersteunt. Als gevolg hiervan transformeert UFO moeizame en tijdrovende processen in eenvoudige taken die uitsluitend via natuurlijke taalcommando's kunnen worden uitgevoerd. We hebben UFO getest in 9 populaire Windows-applicaties, waarbij een verscheidenheid aan scenario's werd bestreken die het dagelijkse gebruik van gebruikers weerspiegelen. De resultaten, gebaseerd op zowel kwantitatieve metingen als praktijkgevallen, benadrukken de superieure effectiviteit van UFO in het vervullen van gebruikersverzoeken. Voor zover wij weten, is UFO de eerste UI-agent die specifiek is ontworpen voor taakvoltooiing binnen de Windows OS-omgeving. De open-source code voor UFO is beschikbaar op https://github.com/microsoft/UFO.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
PDF173February 7, 2026