ChatPaper.aiChatPaper

Agenti di Utilizzo del Computer come Giudici per Interfacce Utente Generative

Computer-Use Agents as Judges for Generative User Interface

November 19, 2025
Autori: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI

Abstract

Gli Agenti per l'Uso del Computer (CUA) stanno diventando sempre più capaci di operare autonomamente negli ambienti digitali attraverso Interfacce Grafiche Utente (GUI). Tuttavia, la maggior parte delle GUI rimane progettata principalmente per gli esseri umani, privilegiando estetica e usabilità, costringendo gli agenti ad adottare comportamenti orientati all'uomo non necessari per un'esecuzione efficiente dei compiti. Parallelamente, i rapidi progressi nei modelli linguistici orientati alla codifica (Coder) hanno trasformato la progettazione automatica delle GUI. Ciò solleva una questione fondamentale: i CUA possono fungere da giudici per assistere i Coder nella progettazione automatica delle GUI? Per indagare, introduciamo AUI-Gym, un benchmark per lo sviluppo automatico di GUI che copre 52 applicazioni in diversi domini. Utilizzando modelli linguistici, sintetizziamo 1560 compiti che simulano scenari del mondo reale. Per garantire l'affidabilità dei compiti, sviluppiamo inoltre un verificatore che controlla programmaticamente se ogni compito è eseguibile nel proprio ambiente. Su questa base, proponiamo un framework di Collaborazione Coder-CUA: il Coder funge da Progettista, generando e revisionando siti web, mentre il CUA funge da Giudice, valutando la funzionalità e perfezionando i progetti. Il successo non è misurato dall'aspetto visivo, ma dalla risolvibilità del compito e dal tasso di successo della navigazione del CUA. Per trasformare il feedback del CUA in una guida utilizzabile, progettiamo una Dashboard CUA che comprime le cronologie di navigazione multi-step in riepiloghi visivi concisi, offrendo una guida interpretabile per la riprogettazione iterativa. Posizionando gli agenti sia come progettisti che come giudici, il nostro framework sposta la progettazione dell'interfaccia verso l'efficienza e l'affidabilità native per gli agenti. Il nostro lavoro compie un passo verso il passaggio degli agenti dall'uso passivo alla partecipazione attiva negli ambienti digitali. Il nostro codice e dataset sono disponibili all'indirizzo https://github.com/showlab/AUI.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.
PDF502December 3, 2025