ChatPaper.aiChatPaper

UFO2: Das Desktop-Agenten-Betriebssystem

UFO2: The Desktop AgentOS

April 20, 2025
Autoren: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI

Zusammenfassung

Aktuelle Computer-Using Agents (CUAs), die durch multimodale Large Language Models (LLMs) angetrieben werden, bieten eine vielversprechende Richtung für die Automatisierung komplexer Desktop-Workflows durch natürliche Sprache. Die meisten bestehenden CUAs bleiben jedoch konzeptionelle Prototypen, die durch eine oberflächliche Betriebssystemintegration, fragile, auf Screenshots basierende Interaktion und disruptive Ausführung behindert werden. Wir präsentieren UFO2, ein Multiagenten-AgentOS für Windows-Desktops, das CUAs in praktische, systemweite Automatisierung überführt. UFO2 verfügt über einen zentralisierten HostAgent für Aufgabenzerlegung und -koordination sowie eine Sammlung von anwendungsspezialisierten AppAgents, die mit nativen APIs, domänenspezifischem Wissen und einer einheitlichen GUI--API-Aktionsschicht ausgestattet sind. Diese Architektur ermöglicht eine robuste Aufgabenausführung bei gleichzeitiger Wahrung von Modularität und Erweiterbarkeit. Eine hybride Kontrollerkennungspipeline kombiniert Windows UI Automation (UIA) mit visueller Analyse, um diverse Interface-Stile zu unterstützen. Die Laufzeiteffizienz wird weiter durch spekulative Multi-Aktionsplanung verbessert, wodurch der LLM-Overhead pro Schritt reduziert wird. Schließlich ermöglicht eine Picture-in-Picture (PiP)-Schnittstelle die Automatisierung innerhalb eines isolierten virtuellen Desktops, sodass Agenten und Benutzer gleichzeitig ohne Störungen arbeiten können. Wir evaluieren UFO2 über mehr als 20 reale Windows-Anwendungen hinweg und zeigen erhebliche Verbesserungen in Bezug auf Robustheit und Ausführungsgenauigkeit im Vergleich zu früheren CUAs. Unsere Ergebnisse zeigen, dass eine tiefe Betriebssystemintegration einen skalierbaren Weg zu zuverlässiger, benutzerorientierter Desktop-Automatisierung eröffnet.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language models (LLMs), offer a promising direction for automating complex desktop workflows through natural language. However, most existing CUAs remain conceptual prototypes, hindered by shallow OS integration, fragile screenshot-based interaction, and disruptive execution. We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs into practical, system-level automation. UFO2 features a centralized HostAgent for task decomposition and coordination, alongside a collection of application-specialized AppAgent equipped with native APIs, domain-specific knowledge, and a unified GUI--API action layer. This architecture enables robust task execution while preserving modularity and extensibility. A hybrid control detection pipeline fuses Windows UI Automation (UIA) with vision-based parsing to support diverse interface styles. Runtime efficiency is further enhanced through speculative multi-action planning, reducing per-step LLM overhead. Finally, a Picture-in-Picture (PiP) interface enables automation within an isolated virtual desktop, allowing agents and users to operate concurrently without interference. We evaluate UFO2 across over 20 real-world Windows applications, demonstrating substantial improvements in robustness and execution accuracy over prior CUAs. Our results show that deep OS integration unlocks a scalable path toward reliable, user-aligned desktop automation.

Summary

AI-Generated Summary

PDF273April 22, 2025