ChatPaper.aiChatPaper

UFO: Ein auf die Benutzeroberfläche fokussierter Agent für die Interaktion mit dem Windows-Betriebssystem

UFO: A UI-Focused Agent for Windows OS Interaction

February 8, 2024
papers.authors: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

papers.abstract

Wir stellen UFO vor, einen innovativen, auf Benutzeroberflächen (UI) fokussierten Agenten, der Benutzeranfragen erfüllt, die auf Anwendungen unter Windows OS zugeschnitten sind, und dabei die Fähigkeiten von GPT-Vision nutzt. UFO verwendet ein Dual-Agenten-Framework, um die grafische Benutzeroberfläche (GUI) und die Steuerungsinformationen von Windows-Anwendungen sorgfältig zu beobachten und zu analysieren. Dies ermöglicht es dem Agenten, nahtlos innerhalb einzelner Anwendungen und übergreifend zwischen ihnen zu navigieren und zu operieren, um Benutzeranfragen zu erfüllen, selbst wenn diese mehrere Anwendungen umfassen. Das Framework integriert ein Steuerungsinteraktionsmodul, das die Handlungsverankerung ohne menschliches Eingreifen erleichtert und eine vollständig automatisierte Ausführung ermöglicht. Dadurch verwandelt UFO mühsame und zeitaufwändige Prozesse in einfache Aufgaben, die ausschließlich durch natürliche Sprachbefehle bewältigt werden können. Wir haben UFO in 9 beliebten Windows-Anwendungen getestet, die eine Vielzahl von Szenarien abdecken, die die tägliche Nutzung der Benutzer widerspiegeln. Die Ergebnisse, die sowohl aus quantitativen Metriken als auch aus realen Fallstudien abgeleitet wurden, unterstreichen die überragende Effektivität von UFO bei der Erfüllung von Benutzeranfragen. Nach unserem besten Wissen ist UFO der erste UI-Agent, der speziell für die Aufgabenerledigung in der Windows-OS-Umgebung entwickelt wurde. Der Open-Source-Code für UFO ist auf https://github.com/microsoft/UFO verfügbar.
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
PDF173December 15, 2024