ChatPaper.aiChatPaper

Computernutzungs-Agenten als Bewertungsinstanzen für generative Benutzerschnittstellen

Computer-Use Agents as Judges for Generative User Interface

November 19, 2025
papers.authors: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI

papers.abstract

Computer-Use Agents (CUA) werden zunehmend fähiger, digitale Umgebungen eigenständig über grafische Benutzeroberflächen (GUI) zu bedienen. Dennoch sind die meisten GUIs nach wie vor primär für Menschen konzipiertiert – sie priorisieren Ästhetik und Benutzerfreundlichkeit – und zwingen Agenten damit zu menschenorientierten Verhaltensweisen, die für eine effiziente Aufgabenerfüllung unnötig sind. Gleichzeitig haben rasante Fortschritte bei code-orientierten Sprachmodellen (Coder) das automatische GUI-Design revolutioniert. Dies wirft eine grundlegende Frage auf: Können CUA als Richter fungieren, um Coder beim automatischen GUI-Design zu unterstützen? Um dies zu untersuchen, stellen wir AUI-Gym vor, einen Benchmark für die automatische GUI-Entwicklung, der 52 Anwendungen aus verschiedenen Domänen umfasst. Mithilfe von Sprachmodellen synthetisieren wir 1560 Aufgaben, die realistische Szenarien simulieren. Um die Zuverlässigkeit der Aufgaben zu gewährleisten, entwickeln wir weiterhin einen Verifizierer, der programmgesteuert prüft, ob jede Aufgabe in ihrer Umgebung ausführbar ist. Darauf aufbauend schlagen wir ein Coder-CUA-in-Kollaboration-Framework vor: Der Coder agiert als Designer, der Websites generiert und überarbeitet, während die CUA als Richter fungiert, die Funktionalität bewertet und Designs verfeinert. Der Erfolg wird nicht am visuellen Erscheinungsbild gemessen, sondern an der Lösbarkeit der Aufgabe und der Erfolgsrate der CUA-Navigation. Um CUA-Feedback in nutzbare Anleitungen umzuwandeln, entwerfen wir ein CUA-Dashboard, das mehrstufige Navigationsverläufe in prägnante visuelle Zusammenfassungen komprimiert und so interpretierbare Leitlinien für iterative Neugestaltung bietet. Indem wir Agenten sowohl als Designer als auch als Richter positionieren, lenkt unser Framework das Schnittstellendesign in Richtung agentennativer Effizienz und Zuverlässigkeit. Unsere Arbeit ist ein Schritt dahin, Agenten von der passiven Nutzung hin zur aktiven Teilhabe an digitalen Umgebungen zu führen. Unser Code und Datensatz sind unter https://github.com/showlab/AUI verfügbar.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.
PDF532February 7, 2026