UFO2: 데스크톱 에이전트OS
UFO2: The Desktop AgentOS
April 20, 2025
저자: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
초록
최근 멀티모달 대형 언어 모델(LLM)을 기반으로 한 컴퓨터 사용 에이전트(CUAs)는 자연어를 통해 복잡한 데스크톱 워크플로우를 자동화하는 유망한 방향을 제시하고 있습니다. 그러나 대부분의 기존 CUAs는 얕은 운영체제 통합, 취약한 스크린샷 기반 상호작용, 그리고 방해가 되는 실행 방식으로 인해 개념적 프로토타입 단계에 머물러 있습니다.
우리는 Windows 데스크톱을 위한 다중 에이전트 AgentOS인 UFO2를 소개합니다. UFO2는 CUAs를 실용적이고 시스템 수준의 자동화로 발전시킵니다. UFO2는 중앙 집중식 HostAgent를 통해 작업 분해와 조정을 수행하며, 네이티브 API, 도메인 특화 지식, 그리고 통합 GUI-API 액션 레이어를 갖춘 애플리케이션 전용 AppAgent 컬렉션을 특징으로 합니다. 이 아키텍처는 견고한 작업 실행을 가능하게 하면서도 모듈성과 확장성을 유지합니다. 하이브리드 제어 감지 파이프라인은 Windows UI Automation(UIA)과 비전 기반 파싱을 융합하여 다양한 인터페이스 스타일을 지원합니다. 실행 시간 효율성은 추론적 다중 액션 계획을 통해 더욱 향상되어 단계별 LLM 오버헤드를 줄입니다. 마지막으로, Picture-in-Picture(PiP) 인터페이스는 격리된 가상 데스크톱 내에서 자동화를 가능하게 하여 에이전트와 사용자가 간섭 없이 동시에 작업할 수 있도록 합니다.
우리는 UFO2를 20개 이상의 실제 Windows 애플리케이션에서 평가하여 기존 CUAs 대비 견고성과 실행 정확도에서 상당한 개선을 입증했습니다. 우리의 결과는 깊은 운영체제 통합이 신뢰할 수 있고 사용자와 조율된 데스크톱 자동화를 위한 확장 가능한 경로를 열어준다는 것을 보여줍니다.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary