UFO2: El Sistema Operativo de Agente de Escritorio
UFO2: The Desktop AgentOS
April 20, 2025
Autores: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Resumen
Los recientes Agentes de Uso Informático (CUAs, por sus siglas en inglés), impulsados por modelos de lenguaje multimodal de gran escala (LLMs), ofrecen una dirección prometedora para automatizar flujos de trabajo complejos en escritorios mediante lenguaje natural. Sin embargo, la mayoría de los CUAs existentes siguen siendo prototipos conceptuales, limitados por una integración superficial con el sistema operativo, interacciones frágiles basadas en capturas de pantalla y una ejecución disruptiva.
Presentamos UFO2, un AgentOS multiagente para escritorios de Windows que eleva los CUAs a un nivel práctico de automatización a nivel de sistema. UFO2 cuenta con un HostAgent centralizado para la descomposición y coordinación de tareas, junto con una colección de AppAgents especializados en aplicaciones, equipados con APIs nativas, conocimiento específico del dominio y una capa unificada de acciones GUI--API. Esta arquitectura permite una ejecución robusta de tareas mientras preserva la modularidad y extensibilidad. Un pipeline híbrido de detección y control fusiona la Automatización de Interfaz de Usuario de Windows (UIA) con análisis basado en visión para soportar diversos estilos de interfaz. La eficiencia en tiempo de ejecución se mejora aún más mediante la planificación especulativa de múltiples acciones, reduciendo la sobrecarga de LLM por paso. Finalmente, una interfaz de Picture-in-Picture (PiP) permite la automatización dentro de un escritorio virtual aislado, permitiendo que los agentes y los usuarios operen simultáneamente sin interferencias.
Evaluamos UFO2 en más de 20 aplicaciones reales de Windows, demostrando mejoras sustanciales en robustez y precisión de ejecución en comparación con CUAs anteriores. Nuestros resultados muestran que una integración profunda con el sistema operativo desbloquea un camino escalable hacia la automatización de escritorios confiable y alineada con el usuario.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary