UFO: Un Agente Orientato all'Interfaccia Utente per l'Interazione con il Sistema Operativo Windows
UFO: A UI-Focused Agent for Windows OS Interaction
February 8, 2024
Autori: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Abstract
Presentiamo UFO, un innovativo agente focalizzato sull'interfaccia utente (UI) progettato per soddisfare le richieste degli utenti in applicazioni specifiche per il sistema operativo Windows, sfruttando le capacità di GPT-Vision. UFO utilizza un framework a doppio agente per osservare e analizzare meticolosamente l'interfaccia grafica (GUI) e le informazioni di controllo delle applicazioni Windows. Ciò consente all'agente di navigare e operare in modo fluido all'interno di singole applicazioni e tra di esse per soddisfare le richieste degli utenti, anche quando queste coinvolgono più applicazioni. Il framework include un modulo di interazione di controllo, che facilita l'ancoraggio delle azioni senza intervento umano e consente un'esecuzione completamente automatizzata. Di conseguenza, UFO trasforma processi complessi e dispendiosi in tempo in semplici attività realizzabili esclusivamente tramite comandi in linguaggio naturale. Abbiamo testato UFO su 9 applicazioni Windows popolari, coprendo una varietà di scenari rappresentativi dell'uso quotidiano degli utenti. I risultati, derivati sia da metriche quantitative che da casi di studio reali, evidenziano l'efficacia superiore di UFO nel soddisfare le richieste degli utenti. Per quanto ne sappiamo, UFO rappresenta il primo agente UI specificamente progettato per il completamento di attività nell'ambiente Windows OS. Il codice open-source di UFO è disponibile su https://github.com/microsoft/UFO.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests
tailored to applications on Windows OS, harnessing the capabilities of
GPT-Vision. UFO employs a dual-agent framework to meticulously observe and
analyze the graphical user interface (GUI) and control information of Windows
applications. This enables the agent to seamlessly navigate and operate within
individual applications and across them to fulfill user requests, even when
spanning multiple applications. The framework incorporates a control
interaction module, facilitating action grounding without human intervention
and enabling fully automated execution. Consequently, UFO transforms arduous
and time-consuming processes into simple tasks achievable solely through
natural language commands. We conducted testing of UFO across 9 popular Windows
applications, encompassing a variety of scenarios reflective of users' daily
usage. The results, derived from both quantitative metrics and real-case
studies, underscore the superior effectiveness of UFO in fulfilling user
requests. To the best of our knowledge, UFO stands as the first UI agent
specifically tailored for task completion within the Windows OS environment.
The open-source code for UFO is available on https://github.com/microsoft/UFO.