UFO2: O Sistema Operacional de Agente para Desktop
UFO2: The Desktop AgentOS
April 20, 2025
Autores: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Resumo
Agentes de Uso de Computador (CUAs) recentes, impulsionados por modelos de linguagem multimodal de grande escala (LLMs), oferecem uma direção promissora para a automação de fluxos de trabalho complexos em desktops por meio de linguagem natural. No entanto, a maioria dos CUAs existentes permanece como protótipos conceituais, limitados por integração superficial com o sistema operacional, interação frágil baseada em capturas de tela e execução disruptiva.
Apresentamos o UFO2, um AgentOS multiagente para desktops Windows que eleva os CUAs para a automação prática em nível de sistema. O UFO2 apresenta um HostAgent centralizado para decomposição e coordenação de tarefas, juntamente com uma coleção de AppAgents especializados em aplicativos, equipados com APIs nativas, conhecimento específico de domínio e uma camada unificada de ação GUI--API. Essa arquitetura permite execução robusta de tarefas enquanto preserva modularidade e extensibilidade. Um pipeline híbrido de detecção de controle combina a Automação de Interface de Usuário do Windows (UIA) com análise baseada em visão para suportar diversos estilos de interface. A eficiência em tempo de execução é ainda mais aprimorada por meio de planejamento especulativo de múltiplas ações, reduzindo a sobrecarga por etapa do LLM. Por fim, uma interface Picture-in-Picture (PiP) permite automação dentro de um desktop virtual isolado, permitindo que agentes e usuários operem simultaneamente sem interferência.
Avaliamos o UFO2 em mais de 20 aplicativos Windows do mundo real, demonstrando melhorias substanciais em robustez e precisão de execução em comparação com CUAs anteriores. Nossos resultados mostram que a integração profunda com o sistema operacional desbloqueia um caminho escalável para automação de desktop confiável e alinhada com o usuário.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary