ChatPaper.aiChatPaper

UFO2: 데스크톱 에이전트OS

UFO2: The Desktop AgentOS

April 20, 2025
저자: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI

초록

최근 멀티모달 대형 언어 모델(LLM)을 기반으로 한 컴퓨터 사용 에이전트(CUAs)는 자연어를 통해 복잡한 데스크톱 워크플로우를 자동화하는 유망한 방향을 제시하고 있습니다. 그러나 대부분의 기존 CUAs는 얕은 운영체제 통합, 취약한 스크린샷 기반 상호작용, 그리고 방해가 되는 실행 방식으로 인해 개념적 프로토타입 단계에 머물러 있습니다. 우리는 Windows 데스크톱을 위한 다중 에이전트 AgentOS인 UFO2를 소개합니다. UFO2는 CUAs를 실용적이고 시스템 수준의 자동화로 발전시킵니다. UFO2는 중앙 집중식 HostAgent를 통해 작업 분해와 조정을 수행하며, 네이티브 API, 도메인 특화 지식, 그리고 통합 GUI-API 액션 레이어를 갖춘 애플리케이션 전용 AppAgent 컬렉션을 특징으로 합니다. 이 아키텍처는 견고한 작업 실행을 가능하게 하면서도 모듈성과 확장성을 유지합니다. 하이브리드 제어 감지 파이프라인은 Windows UI Automation(UIA)과 비전 기반 파싱을 융합하여 다양한 인터페이스 스타일을 지원합니다. 실행 시간 효율성은 추론적 다중 액션 계획을 통해 더욱 향상되어 단계별 LLM 오버헤드를 줄입니다. 마지막으로, Picture-in-Picture(PiP) 인터페이스는 격리된 가상 데스크톱 내에서 자동화를 가능하게 하여 에이전트와 사용자가 간섭 없이 동시에 작업할 수 있도록 합니다. 우리는 UFO2를 20개 이상의 실제 Windows 애플리케이션에서 평가하여 기존 CUAs 대비 견고성과 실행 정확도에서 상당한 개선을 입증했습니다. 우리의 결과는 깊은 운영체제 통합이 신뢰할 수 있고 사용자와 조율된 데스크톱 자동화를 위한 확장 가능한 경로를 열어준다는 것을 보여줍니다.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language models (LLMs), offer a promising direction for automating complex desktop workflows through natural language. However, most existing CUAs remain conceptual prototypes, hindered by shallow OS integration, fragile screenshot-based interaction, and disruptive execution. We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs into practical, system-level automation. UFO2 features a centralized HostAgent for task decomposition and coordination, alongside a collection of application-specialized AppAgent equipped with native APIs, domain-specific knowledge, and a unified GUI--API action layer. This architecture enables robust task execution while preserving modularity and extensibility. A hybrid control detection pipeline fuses Windows UI Automation (UIA) with vision-based parsing to support diverse interface styles. Runtime efficiency is further enhanced through speculative multi-action planning, reducing per-step LLM overhead. Finally, a Picture-in-Picture (PiP) interface enables automation within an isolated virtual desktop, allowing agents and users to operate concurrently without interference. We evaluate UFO2 across over 20 real-world Windows applications, demonstrating substantial improvements in robustness and execution accuracy over prior CUAs. Our results show that deep OS integration unlocks a scalable path toward reliable, user-aligned desktop automation.

Summary

AI-Generated Summary

PDF273April 22, 2025