UFO2 : L'AgentOS de bureau
UFO2: The Desktop AgentOS
April 20, 2025
Auteurs: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Résumé
Les récents Agents Utilisateurs d'Ordinateurs (CUAs), alimentés par des modèles de langage multimodaux de grande envergure (LLMs), offrent une direction prometteuse pour l'automatisation des workflows complexes sur le bureau grâce au langage naturel. Cependant, la plupart des CUAs existants restent des prototypes conceptuels, entravés par une intégration superficielle au système d'exploitation, une interaction fragile basée sur des captures d'écran, et une exécution perturbatrice.
Nous présentons UFO2, un AgentOS multiagents pour les bureaux Windows qui élève les CUAs vers une automatisation pratique et systémique. UFO2 intègre un HostAgent centralisé pour la décomposition et la coordination des tâches, ainsi qu'une collection d'AppAgents spécialisés par application, équipés d'API natives, de connaissances spécifiques au domaine, et d'une couche d'action unifiée GUI--API. Cette architecture permet une exécution robuste des tâches tout en préservant la modularité et l'extensibilité. Un pipeline de détection de contrôle hybride fusionne l'Automatisation de l'Interface Utilisateur Windows (UIA) avec l'analyse basée sur la vision pour supporter divers styles d'interface. L'efficacité en temps d'exécution est en outre améliorée grâce à une planification spéculative multi-actions, réduisant la surcharge par étape des LLM. Enfin, une interface Picture-in-Picture (PiP) permet l'automatisation dans un bureau virtuel isolé, permettant aux agents et aux utilisateurs d'opérer simultanément sans interférence.
Nous évaluons UFO2 sur plus de 20 applications Windows réelles, démontrant des améliorations substantielles en robustesse et en précision d'exécution par rapport aux CUAs précédents. Nos résultats montrent qu'une intégration profonde au système d'exploitation ouvre une voie évolutive vers une automatisation de bureau fiable et alignée sur l'utilisateur.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary