UFO2: Il Sistema Operativo Agente Desktop
UFO2: The Desktop AgentOS
April 20, 2025
Autori: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Abstract
I recenti Computer-Using Agents (CUAs), alimentati da modelli linguistici multimodali di grandi dimensioni (LLMs), offrono una direzione promettente per l'automazione di flussi di lavoro complessi sui desktop attraverso il linguaggio naturale. Tuttavia, la maggior parte degli attuali CUAs rimane prototipi concettuali, ostacolati da un'integrazione superficiale con il sistema operativo, interazioni fragili basate su screenshot ed esecuzioni disruptive.
Presentiamo UFO2, un AgentOS multiagente per desktop Windows che eleva i CUAs a un livello pratico di automazione a livello di sistema. UFO2 include un HostAgent centralizzato per la scomposizione e il coordinamento dei task, insieme a una raccolta di AppAgent specializzati per applicazioni, dotati di API native, conoscenza specifica del dominio e un livello unificato di azioni GUI--API. Questa architettura consente un'esecuzione robusta dei task preservando modularità e estensibilità. Una pipeline ibrida di rilevamento del controllo combina Windows UI Automation (UIA) con il parsing basato sulla visione per supportare diversi stili di interfaccia. L'efficienza in fase di esecuzione è ulteriormente migliorata attraverso una pianificazione speculativa multi-azione, riducendo l'overhead per passo degli LLM. Infine, un'interfaccia Picture-in-Picture (PiP) abilita l'automazione all'interno di un desktop virtuale isolato, consentendo agli agenti e agli utenti di operare contemporaneamente senza interferenze.
Valutiamo UFO2 su oltre 20 applicazioni Windows del mondo reale, dimostrando miglioramenti sostanziali nella robustezza e nell'accuratezza di esecuzione rispetto ai precedenti CUAs. I nostri risultati mostrano che un'integrazione profonda con il sistema operativo apre una strada scalabile verso un'automazione desktop affidabile e allineata alle esigenze degli utenti.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary