Agentes de Uso Computacional como Avaliadores para Interface de Usuário Generativa

Resumo

Os Agentes de Uso de Computador (CUA) estão se tornando cada vez mais capazes de operar ambientes digitais de forma autônoma por meio de Interfaces Gráficas de Utilizador (GUI). No entanto, a maioria das GUIs continua a ser projetada principalmente para humanos - priorizando a estética e a usabilidade - forçando os agentes a adotarem comportamentos orientados para o ser humano que são desnecessários para uma execução eficiente de tarefas. Ao mesmo tempo, os rápidos avanços nos modelos de linguagem orientados para codificação (Coder) transformaram o design automático de GUIs. Isto levanta uma questão fundamental: Podem os CUA atuar como juízes para auxiliar o Coder no design automático de GUIs? Para investigar, apresentamos o AUI-Gym, um *benchmark* para o desenvolvimento automático de GUIs abrangendo 52 aplicações em diversos domínios. Utilizando modelos de linguagem, sintetizamos 1560 tarefas que simulam cenários do mundo real. Para garantir a fiabilidade das tarefas, desenvolvemos ainda um verificador que verifica programaticamente se cada tarefa é executável no seu ambiente. Com base nisto, propomos uma estrutura de Colaboração Coder-CUA: o Coder atua como *Designer*, gerando e revendo websites, enquanto o CUA serve como *Judge*, avaliando a funcionalidade e refinando os designs. O sucesso é medido não pela aparência visual, mas pela capacidade de resolução de tarefas e pela taxa de sucesso de navegação do CUA. Para transformar o *feedback* do CUA em orientação utilizável, concebemos um *Dashboard* do CUA que comprime histórias de navegação de múltiplos passos em resumos visuais concisos, oferecendo orientação interpretável para um redesenho iterativo. Ao posicionar os agentes como *designers* e juízes, a nossa estrutura desloca o design de interface para a eficiência e fiabilidade nativas do agente. O nosso trabalho dá um passo no sentido de mudar os agentes de um uso passivo para uma participação ativa em ambientes digitais. O nosso código e conjunto de dados estão disponíveis em https://github.com/showlab/AUI.

English

Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.