UFO2: Агентная операционная система для настольных компьютеров
UFO2: The Desktop AgentOS
April 20, 2025
Авторы: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
Аннотация
Современные агенты, использующие компьютеры (Computer-Using Agents, CUAs), основанные на мультимодальных больших языковых моделях (LLMs), открывают перспективное направление для автоматизации сложных рабочих процессов на компьютере с использованием естественного языка. Однако большинство существующих CUAs остаются концептуальными прототипами, ограниченными поверхностной интеграцией с операционной системой, хрупким взаимодействием на основе скриншотов и нарушающим выполнение процессов.
Мы представляем UFO2 — многоагентную операционную систему (AgentOS) для рабочих столов Windows, которая выводит CUAs на уровень практической, системной автоматизации. UFO2 включает централизованный HostAgent для декомпозиции и координации задач, а также набор специализированных AppAgent, оснащенных нативными API, предметно-ориентированными знаниями и унифицированным слоем действий GUI–API. Такая архитектура обеспечивает надежное выполнение задач, сохраняя модульность и расширяемость. Гибридный конвейер контроля и анализа объединяет Windows UI Automation (UIA) с визуальным парсингом для поддержки разнообразных стилей интерфейсов. Эффективность выполнения дополнительно повышается за счет спекулятивного планирования множественных действий, что снижает нагрузку на LLM на каждом шаге. Наконец, интерфейс Picture-in-Picture (PiP) позволяет выполнять автоматизацию в изолированном виртуальном рабочем столе, что дает возможность агентам и пользователям работать одновременно без помех.
Мы оцениваем UFO2 на более чем 20 реальных приложениях Windows, демонстрируя значительное улучшение надежности и точности выполнения по сравнению с предыдущими CUAs. Наши результаты показывают, что глубокая интеграция с операционной системой открывает масштабируемый путь к надежной и ориентированной на пользователя автоматизации рабочего стола.
English
Recent Computer-Using Agents (CUAs), powered by multimodal large language
models (LLMs), offer a promising direction for automating complex desktop
workflows through natural language. However, most existing CUAs remain
conceptual prototypes, hindered by shallow OS integration, fragile
screenshot-based interaction, and disruptive execution.
We present UFO2, a multiagent AgentOS for Windows desktops that elevates CUAs
into practical, system-level automation. UFO2 features a centralized HostAgent
for task decomposition and coordination, alongside a collection of
application-specialized AppAgent equipped with native APIs, domain-specific
knowledge, and a unified GUI--API action layer. This architecture enables
robust task execution while preserving modularity and extensibility. A hybrid
control detection pipeline fuses Windows UI Automation (UIA) with vision-based
parsing to support diverse interface styles. Runtime efficiency is further
enhanced through speculative multi-action planning, reducing per-step LLM
overhead. Finally, a Picture-in-Picture (PiP) interface enables automation
within an isolated virtual desktop, allowing agents and users to operate
concurrently without interference.
We evaluate UFO2 across over 20 real-world Windows applications,
demonstrating substantial improvements in robustness and execution accuracy
over prior CUAs. Our results show that deep OS integration unlocks a scalable
path toward reliable, user-aligned desktop automation.Summary
AI-Generated Summary