생성적 사용자 인터페이스 평가를 위한 컴퓨터 사용 에이전트 판단
Computer-Use Agents as Judges for Generative User Interface
November 19, 2025
저자: Kevin Qinghong Lin, Siyuan Hu, Linjie Li, Zhengyuan Yang, Lijuan Wang, Philip Torr, Mike Zheng Shou
cs.AI
초록
컴퓨터 사용 에이전트(CUA)는 그래픽 사용자 인터페이스(GUI)를 통해 디지털 환경을 자율적으로 운영하는 능력이 점차 향상되고 있습니다. 그러나 대부분의 GUI는 여전히 인간을 주 대상으로 설계되어 미적 요소와 사용성을 우선시함으로써, 에이전트로 하여금 효율적인 작업 수행에 불필요한 인간 중심의 행동을 채택하도록 강요하고 있습니다. 동시에 코드 지향 언어 모델(Coder)의 급속한 발전으로 자동 GUI 설계가 혁신되고 있습니다. 이는 근본적인 질문을 제기합니다: Coder의 자동 GUI 설계를 지원하는 판단자로서 CUA를 활용할 수 있을까? 이를探究하기 위해, 우리는 다양한 분야에 걸친 52개 애플리케이션을 아우르는 자동 GUI 개발 벤치마크인 AUI-Gym을 소개합니다. 언어 모델을 활용하여 현실 세계 시나리오를 모방한 1560개의 작업을 종합합니다. 작업 신뢰성을 보장하기 위해, 각 작업이 해당 환경 내에서 실행 가능한지를 프로그램 방식으로 검증하는 검증기를 추가 개발합니다. 이를 바탕으로 Coder-CUA 협업 프레임워크를 제안합니다: Coder는 Designer 역할로 웹사이트를 생성 및 수정하고, CUA는 Judge 역할로 기능성을 평가하고 설계를 개선합니다. 성공은 시각적 외관이 아닌, 작업 해결 가능성과 CUA 탐색 성공률로 측정됩니다. CUA 피드백을 실용적인 지침으로 전환하기 위해, 다단계 탐색 기록을 간결한 시각적 요약으로 압축하여 반복적 재설계를 위한 해석 가능한 지침을 제공하는 CUA 대시보드를 설계합니다. 에이전트를 설계자이자 판단자로 위치시킴으로써, 우리의 프레임워크는 인터페이스 설계를 에이전트 본연의 효율성과 신뢰성 방향으로 전환합니다. 본 연구는 에이전트가 디지털 환경에서 수동적 사용을 넘어 능동적 참여자로 전환되는 데 한 걸음을 내디딥니다. 우리의 코드와 데이터셋은 https://github.com/showlab/AUI에서 이용 가능합니다.
English
Computer-Use Agents (CUA) are becoming increasingly capable of autonomously operating digital environments through Graphical User Interfaces (GUI). Yet, most GUI remain designed primarily for humans--prioritizing aesthetics and usability--forcing agents to adopt human-oriented behaviors that are unnecessary for efficient task execution. At the same time, rapid advances in coding-oriented language models (Coder) have transformed automatic GUI design. This raises a fundamental question: Can CUA as judges to assist Coder for automatic GUI design? To investigate, we introduce AUI-Gym, a benchmark for Automatic GUI development spanning 52 applications across diverse domains. Using language models, we synthesize 1560 tasks that simulate real-world scenarios. To ensure task reliability, we further develop a verifier that programmatically checks whether each task is executable within its environment. Building on this, we propose a Coder-CUA in Collaboration framework: the Coder acts as Designer, generating and revising websites, while the CUA serves as Judge, evaluating functionality and refining designs. Success is measured not by visual appearance, but by task solvability and CUA navigation success rate. To turn CUA feedback into usable guidance, we design a CUA Dashboard that compresses multi-step navigation histories into concise visual summaries, offering interpretable guidance for iterative redesign. By positioning agents as both designers and judges, our framework shifts interface design toward agent-native efficiency and reliability. Our work takes a step toward shifting agents from passive use toward active participation in digital environments. Our code and dataset are available at https://github.com/showlab/AUI.