ChatPaper.aiChatPaper

UFO: Windows OS操作のためのUI特化型エージェント

UFO: A UI-Focused Agent for Windows OS Interaction

February 8, 2024
著者: Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
cs.AI

要旨

私たちは、Windows OS上のアプリケーションに特化してユーザーリクエストを実現する革新的なUIフォーカスエージェント「UFO」を紹介します。UFOは、GPT-Visionの能力を活用し、デュアルエージェントフレームワークを採用して、Windowsアプリケーションのグラフィカルユーザーインターフェース(GUI)と制御情報を綿密に観察・分析します。これにより、エージェントは個々のアプリケーション内および複数のアプリケーション間をシームレスにナビゲートし、ユーザーリクエストを遂行することが可能です。このフレームワークには制御インタラクションモジュールが組み込まれており、人間の介入なしにアクションをグラウンディングし、完全自動化された実行を可能にします。その結果、UFOは煩雑で時間のかかるプロセスを、自然言語コマンドだけで簡単に実現できるタスクに変えます。私たちは、UFOを9つの人気Windowsアプリケーションでテストし、ユーザーの日常的な使用を反映したさまざまなシナリオを網羅しました。定量的な指標と実際のケーススタディから得られた結果は、UFOがユーザーリクエストを遂行する上で優れた効果を発揮することを示しています。私たちの知る限り、UFOはWindows OS環境でのタスク完了に特化した最初のUIエージェントです。UFOのオープンソースコードはhttps://github.com/microsoft/UFOで公開されています。
English
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
PDF173December 15, 2024