UFO : Un agent axé sur l'interface utilisateur pour l'interaction avec le système d'exploitation Windows
UFO: A UI-Focused Agent for Windows OS Interaction
February 8, 2024
Auteurs: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI
Résumé
Nous présentons UFO, un agent innovant centré sur l'interface utilisateur (UI) pour répondre aux demandes des utilisateurs adaptées aux applications du système d'exploitation Windows, en exploitant les capacités de GPT-Vision. UFO utilise un cadre à double agent pour observer et analyser méticuleusement l'interface graphique (GUI) et les informations de contrôle des applications Windows. Cela permet à l'agent de naviguer et d'opérer de manière fluide au sein des applications individuelles et entre elles pour répondre aux demandes des utilisateurs, même lorsqu'elles impliquent plusieurs applications. Le cadre intègre un module d'interaction de contrôle, facilitant l'ancrage des actions sans intervention humaine et permettant une exécution entièrement automatisée. Par conséquent, UFO transforme des processus laborieux et chronophages en tâches simples réalisables uniquement via des commandes en langage naturel. Nous avons testé UFO sur 9 applications Windows populaires, couvrant une variété de scénarios reflétant l'utilisation quotidienne des utilisateurs. Les résultats, issus de mesures quantitatives et d'études de cas réels, soulignent l'efficacité supérieure d'UFO pour répondre aux demandes des utilisateurs. À notre connaissance, UFO est le premier agent UI spécifiquement conçu pour la réalisation de tâches dans l'environnement Windows. Le code source ouvert d'UFO est disponible sur https://github.com/microsoft/UFO.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests
tailored to applications on Windows OS, harnessing the capabilities of
GPT-Vision. UFO employs a dual-agent framework to meticulously observe and
analyze the graphical user interface (GUI) and control information of Windows
applications. This enables the agent to seamlessly navigate and operate within
individual applications and across them to fulfill user requests, even when
spanning multiple applications. The framework incorporates a control
interaction module, facilitating action grounding without human intervention
and enabling fully automated execution. Consequently, UFO transforms arduous
and time-consuming processes into simple tasks achievable solely through
natural language commands. We conducted testing of UFO across 9 popular Windows
applications, encompassing a variety of scenarios reflective of users' daily
usage. The results, derived from both quantitative metrics and real-case
studies, underscore the superior effectiveness of UFO in fulfilling user
requests. To the best of our knowledge, UFO stands as the first UI agent
specifically tailored for task completion within the Windows OS environment.
The open-source code for UFO is available on https://github.com/microsoft/UFO.Summary
AI-Generated Summary