Agents informatiques comme juges pour les interfaces utilisateur génératives
Computer-Use Agents as Judges for Generative User Interface
November 19, 2025
papers.authors: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI
papers.abstract
Les agents d'utilisation informatique (CUA) deviennent de plus en plus capables d'opérer de manière autonome dans les environnements numériques via les interfaces graphiques (GUI). Pourtant, la plupart des GUI restent principalement conçues pour les humains - privilégiant l'esthétique et la facilité d'utilisation - forçant les agents à adopter des comportements orientés humains qui sont inutiles pour l'exécution efficace des tâches. Parallèlement, les progrès rapides des modèles de langage orientés code (Coder) ont transformé la conception automatique d'interfaces graphiques. Cela soulève une question fondamentale : Les CUA peuvent-ils servir de juges pour assister les Codeurs dans la conception automatique de GUI ? Pour investiguer cette question, nous introduisons AUI-Gym, un benchmark pour le développement automatique de GUI couvrant 52 applications dans divers domaines. En utilisant des modèles de langage, nous synthétisons 1560 tâches qui simulent des scénarios du monde réel. Pour garantir la fiabilité des tâches, nous développons en outre un vérificateur qui contrôle programmatiquement si chaque tâche est exécutable dans son environnement. Sur cette base, nous proposons un cadre de collaboration Codeur-CUA : le Codeur agit en tant que Concepteur, générant et révisant des sites web, tandis que le CUA sert de Juge, évaluant la fonctionnalité et affinant les conceptions. Le succès est mesuré non par l'apparence visuelle, mais par la résolubilité des tâches et le taux de réussite de navigation du CUA. Pour transformer les retours du CUA en conseils utilisables, nous concevons un Tableau de bord CUA qui compresse les historiques de navigation multi-étapes en résumés visuels concis, offrant des orientations interprétables pour la refonte itérative. En positionnant les agents à la fois comme concepteurs et juges, notre cadre fait évoluer la conception d'interfaces vers une efficacité et une fiabilité natives pour les agents. Notre travail représente un pas vers le passage des agents d'une utilisation passive à une participation active dans les environnements numériques. Notre code et jeu de données sont disponibles à l'adresse https://github.com/showlab/AUI.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.