ChatPaper.aiChatPaper

UFO: Um Agente Focado em Interface de Usuário para Interação com o Sistema Operacional Windows

UFO: A UI-Focused Agent for Windows OS Interaction

February 8, 2024
Autores: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

Resumo

Apresentamos o UFO, um agente inovador focado em interface do usuário (UI) para atender solicitações dos usuários, adaptado a aplicativos no sistema operacional Windows, aproveitando as capacidades do GPT-Vision. O UFO emprega uma estrutura de agente duplo para observar e analisar meticulosamente a interface gráfica do usuário (GUI) e as informações de controle de aplicativos do Windows. Isso permite que o agente navegue e opere de forma contínua dentro de aplicativos individuais e entre eles para atender solicitações dos usuários, mesmo quando envolvem múltiplos aplicativos. A estrutura incorpora um módulo de interação de controle, facilitando a fundamentação de ações sem intervenção humana e permitindo execução totalmente automatizada. Consequentemente, o UFO transforma processos árduos e demorados em tarefas simples realizáveis apenas por meio de comandos em linguagem natural. Testamos o UFO em 9 aplicativos populares do Windows, abrangendo uma variedade de cenários que refletem o uso diário dos usuários. Os resultados, derivados de métricas quantitativas e estudos de casos reais, destacam a eficácia superior do UFO no atendimento às solicitações dos usuários. Até onde sabemos, o UFO é o primeiro agente de UI especificamente adaptado para a conclusão de tarefas no ambiente do Windows. O código-fonte aberto do UFO está disponível em https://github.com/microsoft/UFO.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
PDF173February 7, 2026