ChatPaper.aiChatPaper

Computer-Use Agents als Beoordelaars voor Generatieve Gebruikersinterfaces

Computer-Use Agents as Judges for Generative User Interface

November 19, 2025
Auteurs: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI

Samenvatting

Computer-Use Agents (CUA's) worden steeds beter in staat om autonoom digitale omgevingen te bedienen via Grafische Gebruikersinterfaces (GUI's). Toch zijn de meeste GUI's nog steeds voornamelijk ontworpen voor mensen—met prioriteit voor esthetiek en bruikbaarheid—waardoor agents mensgerichte gedragingen moeten aannemen die niet noodzakelijk zijn voor efficiënte taakuitvoering. Tegelijkertijd hebben snelle vooruitgangen in code-gerichte taalmodellen (Coder) het automatisch GUI-ontwerp getransformeerd. Dit roept een fundamentele vraag op: Kunnen CUA's als beoordelaar fungeren om Coder te assisteren bij automatisch GUI-ontwerp? Om dit te onderzoeken, introduceren we AUI-Gym, een benchmark voor Automatische GUI-ontwikkeling, die 52 applicaties bestrijkt across diverse domeinen. Met behulp van taalmodellen synthetiseren we 1560 taken die realistische scenario's simuleren. Om de taakbetrouwbaarheid te waarborgen, ontwikkelen we verder een verifier die programmatisch controleert of elke taak uitvoerbaar is binnen zijn omgeving. Hierop voortbouwend stellen we een Coder-CUA in Samenwerkingsframework voor: de Coder fungeert als Ontwerper, die websites genereert en reviseert, terwijl de CUA dient als Rechter, die de functionaliteit evalueert en ontwerpen verfijnt. Succes wordt niet gemeten aan visueel uiterlijk, maar aan taakoplosbaarheid en het navigatiesuccespercentage van de CUA. Om CUA-feedback om te zetten in bruikbare richtlijnen, ontwerpen we een CUA Dashboard dat meerstaps navigatiegeschiedenissen comprimeert tot beknopte visuele samenvattingen, wat interpreteerbare richtlijnen biedt voor iteratieve herontwerpen. Door agents te positioneren als zowel ontwerpers als beoordelaars, verschuift ons framework interface-ontwerp richting agent-native efficiëntie en betrouwbaarheid. Ons werk zet een stap in de richting van het verschuiven van agents van passief gebruik naar actieve participatie in digitale omgevingen. Onze code en dataset zijn beschikbaar op https://github.com/showlab/AUI.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.
PDF502December 3, 2025