UFO: Un Agente Centrado en la Interfaz de Usuario para la Interacción con el Sistema Operativo Windows
UFO: A UI-Focused Agent for Windows OS Interaction
February 8, 2024
Autores: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Resumen
Presentamos UFO, un agente innovador centrado en la interfaz de usuario (UI) diseñado para cumplir solicitudes de usuarios adaptadas a aplicaciones en Windows OS, aprovechando las capacidades de GPT-Vision. UFO emplea un marco de doble agente para observar y analizar meticulosamente la interfaz gráfica de usuario (GUI) y la información de control de aplicaciones de Windows. Esto permite al agente navegar y operar de manera fluida dentro de aplicaciones individuales y entre ellas para cumplir solicitudes de usuarios, incluso cuando estas abarcan múltiples aplicaciones. El marco incorpora un módulo de interacción de control, facilitando la ejecución de acciones sin intervención humana y permitiendo una ejecución completamente automatizada. Como resultado, UFO transforma procesos arduos y que consumen mucho tiempo en tareas simples que pueden realizarse únicamente mediante comandos en lenguaje natural. Realizamos pruebas de UFO en 9 aplicaciones populares de Windows, abarcando una variedad de escenarios que reflejan el uso diario de los usuarios. Los resultados, derivados tanto de métricas cuantitativas como de estudios de casos reales, destacan la eficacia superior de UFO para cumplir solicitudes de usuarios. Hasta donde sabemos, UFO es el primer agente de UI específicamente diseñado para completar tareas en el entorno de Windows OS. El código abierto de UFO está disponible en https://github.com/microsoft/UFO.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests
tailored to applications on Windows OS, harnessing the capabilities of
GPT-Vision. UFO employs a dual-agent framework to meticulously observe and
analyze the graphical user interface (GUI) and control information of Windows
applications. This enables the agent to seamlessly navigate and operate within
individual applications and across them to fulfill user requests, even when
spanning multiple applications. The framework incorporates a control
interaction module, facilitating action grounding without human intervention
and enabling fully automated execution. Consequently, UFO transforms arduous
and time-consuming processes into simple tasks achievable solely through
natural language commands. We conducted testing of UFO across 9 popular Windows
applications, encompassing a variety of scenarios reflective of users' daily
usage. The results, derived from both quantitative metrics and real-case
studies, underscore the superior effectiveness of UFO in fulfilling user
requests. To the best of our knowledge, UFO stands as the first UI agent
specifically tailored for task completion within the Windows OS environment.
The open-source code for UFO is available on https://github.com/microsoft/UFO.