ChatPaper.aiChatPaper

UFO: Windows OS 상호작용을 위한 UI 중심 에이전트

UFO: A UI-Focused Agent for Windows OS Interaction

February 8, 2024
저자: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

초록

Windows OS 환경에서 사용자 요청을 충족하기 위해 GPT-Vision의 기능을 활용한 혁신적인 UI 중심 에이전트인 UFO를 소개한다. UFO는 이중 에이전트 프레임워크를 사용하여 Windows 애플리케이션의 그래픽 사용자 인터페이스(GUI)와 제어 정보를 세밀하게 관찰하고 분석한다. 이를 통해 UFO는 단일 애플리케이션 내에서뿐만 아니라 여러 애플리케이션에 걸쳐 사용자 요청을 원활하게 탐색하고 실행할 수 있다. 이 프레임워크는 제어 상호작용 모듈을 포함하여 인간의 개입 없이도 작업을 기반으로 한 동작을 가능하게 하고 완전 자동화된 실행을 지원한다. 결과적으로, UFO는 복잡하고 시간이 많이 소요되는 프로세스를 자연어 명령만으로 간단히 수행할 수 있는 작업으로 변환한다. 우리는 UFO를 9개의 인기 있는 Windows 애플리케이션에서 사용자의 일상적인 사용을 반영한 다양한 시나리오로 테스트했다. 정량적 지표와 실제 사례 연구에서 도출된 결과는 UFO가 사용자 요청을 충족하는 데 있어 탁월한 효과를 보임을 입증한다. 우리가 아는 한, UFO는 Windows OS 환경 내에서 작업 완료를 위해 특별히 설계된 최초의 UI 에이전트이다. UFO의 오픈소스 코드는 https://github.com/microsoft/UFO에서 확인할 수 있다.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.

Summary

AI-Generated Summary

PDF163December 15, 2024