ChatPaper.aiChatPaper

Agentes de Uso Informático como Evaluadores para Interfaces de Usuario Generativas

Computer-Use Agents as Judges for Generative User Interface

November 19, 2025
Autores: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI

Resumen

Los agentes de uso informático (CUA) son cada vez más capaces de operar autónomamente en entornos digitales a través de interfaces gráficas de usuario (GUI). Sin embargo, la mayoría de las GUI siguen diseñadas principalmente para humanos—priorizando la estética y la usabilidad—lo que obliga a los agentes a adoptar comportamientos orientados a humanos que son innecesarios para una ejecución eficiente de tareas. Al mismo tiempo, los rápidos avances en modelos de lenguaje orientados a codificación (Coder) han transformado el diseño automático de GUI. Esto plantea una pregunta fundamental: ¿Pueden los CUA actuar como jueces para asistir a los Coder en el diseño automático de GUI? Para investigarlo, presentamos AUI-Gym, un benchmark para el desarrollo automático de GUI que abarca 52 aplicaciones en diversos dominios. Utilizando modelos de lenguaje, sintetizamos 1560 tareas que simulan escenarios del mundo real. Para garantizar la fiabilidad de las tareas, desarrollamos además un verificador que comprueba programáticamente si cada tarea es ejecutable dentro de su entorno. Sobre esta base, proponemos un marco de Colaboración Coder-CUA: el Coder actúa como Diseñador, generando y revisando sitios web, mientras que el CUA sirve como Juez, evaluando la funcionalidad y refinando diseños. El éxito se mide no por la apariencia visual, sino por la capacidad de resolución de tareas y la tasa de éxito de navegación del CUA. Para convertir la retroalimentación del CUA en guías utilizables, diseñamos un Panel de Control del CUA que comprime historiales de navegación multi-paso en resúmenes visuales concisos, ofreciendo orientación interpretable para rediseños iterativos. Al posicionar a los agentes tanto como diseñadores como jueces, nuestro marco desplaza el diseño de interfaces hacia la eficiencia y fiabilidad nativa para agentes. Nuestro trabajo da un paso hacia el cambio de los agentes de un uso pasivo a una participación activa en entornos digitales. Nuestro código y dataset están disponibles en https://github.com/showlab/AUI.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.
PDF532February 7, 2026