生成AIユーザーインターフェースの評価指標としてのコンピュータ利用エージェント
Computer-Use Agents as Judges for Generative User Interface
November 19, 2025
著者: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI
要旨
コンピュータ利用エージェント(CUA)は、グラフィカルユーザーインターフェース(GUI)を介してデジタル環境を自律的に操作する能力を急速に高めている。しかし、ほとんどのGUIは依然として人間向けに設計されており、視覚的美観や使いやすさを優先するため、エージェントは効率的なタスク実行には不要な人間指向の行動を強いられている。一方、コード指向の言語モデル(Coder)の急速な進歩により、自動GUI設計が大きく変革されつつある。これにより生じる根本的な問いは、「Coderによる自動GUI設計を支援する審判役としてCUAを活用できるか」である。この課題を探るため、我々は多様なドメインにわたる52のアプリケーションを対象とした自動GUI開発ベンチマーク「AUI-Gym」を提案する。言語モデルを用いて現実世界のシナリオを模擬する1560のタスクを合成し、信頼性を確保するため各タスクが環境内で実行可能かどうかをプログラム的に検証する検証器を開発した。さらに「Coder-CUA協働フレームワーク」を構築:Coderはデザイナーとしてウェブサイトの生成と修正を担当し、CUAは審判役として機能性の評価と設計の改良を行う。成功指標は視覚的外観ではなく、タスク解決可能性とCUAナビゲーション成功率で測定する。CUAのフィードバックを実用的な指針に変換するため、多段階ナビゲーション履歴を簡潔な視覚的サマリーに圧縮する「CUAダッシュボード」を設計し、反復的再設計に向けた解釈可能なガイダンスを提供する。エージェントを設計者と審判の両方に位置付ける本フレームワークは、インターフェース設計をエージェント本来の効率性と信頼性に向けて転換する。本研究は、エージェントがデジタル環境で受動的に利用される段階から能動的参加へ移行するための一歩となる。コードとデータセットはhttps://github.com/showlab/AUIで公開されている。
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.