UFO2: Das Desktop-Agenten-Betriebssystem
UFO2: The Desktop AgentOS
April 20, 2025
Autoren: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Zusammenfassung
Aktuelle Computer-Using Agents (CUAs), die durch multimodale Large Language Models (LLMs) angetrieben werden, bieten eine vielversprechende Richtung für die Automatisierung komplexer Desktop-Workflows durch natürliche Sprache. Die meisten bestehenden CUAs bleiben jedoch konzeptionelle Prototypen, die durch eine oberflächliche Betriebssystemintegration, fragile, auf Screenshots basierende Interaktion und disruptive Ausführung behindert werden.
Wir präsentieren UFO2, ein Multiagenten-AgentOS für Windows-Desktops, das CUAs in praktische, systemweite Automatisierung überführt. UFO2 verfügt über einen zentralisierten HostAgent für Aufgabenzerlegung und -koordination sowie eine Sammlung von anwendungsspezialisierten AppAgents, die mit nativen APIs, domänenspezifischem Wissen und einer einheitlichen GUI--API-Aktionsschicht ausgestattet sind. Diese Architektur ermöglicht eine robuste Aufgabenausführung bei gleichzeitiger Wahrung von Modularität und Erweiterbarkeit. Eine hybride Kontrollerkennungspipeline kombiniert Windows UI Automation (UIA) mit visueller Analyse, um diverse Interface-Stile zu unterstützen. Die Laufzeiteffizienz wird weiter durch spekulative Multi-Aktionsplanung verbessert, wodurch der LLM-Overhead pro Schritt reduziert wird. Schließlich ermöglicht eine Picture-in-Picture (PiP)-Schnittstelle die Automatisierung innerhalb eines isolierten virtuellen Desktops, sodass Agenten und Benutzer gleichzeitig ohne Störungen arbeiten können.
Wir evaluieren UFO2 über mehr als 20 reale Windows-Anwendungen hinweg und zeigen erhebliche Verbesserungen in Bezug auf Robustheit und Ausführungsgenauigkeit im Vergleich zu früheren CUAs. Unsere Ergebnisse zeigen, dass eine tiefe Betriebssystemintegration einen skalierbaren Weg zu zuverlässiger, benutzerorientierter Desktop-Automatisierung eröffnet.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary