GTA1: GUI 테스트 시간 스케일링 에이전트
GTA1: GUI Test-time Scaling Agent
July 8, 2025
저자: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI
초록
그래픽 사용자 인터페이스(GUI) 에이전트는 플랫폼(예: Linux) 간에 자율적으로 작동하여 시각적 요소와 상호작용하며 작업을 완료합니다. 구체적으로, 사용자 지시는 GUI와의 상호작용에 해당하는 일련의 액션 제안으로 분해됩니다. 각 액션 후, 에이전트는 업데이트된 GUI 환경을 관찰하여 다음 단계를 계획합니다. 그러나 두 가지 주요 과제가 발생합니다: i) 작업 계획(즉, 액션 제안 시퀀스)에서의 모호성 해결, 이는 적절한 계획을 선택하는 것이 사소하지 않을 수 있으며 많은 유효한 계획이 존재할 수 있기 때문입니다; ii) 복잡하고 고해상도의 인터페이스에서 액션을 정확하게 기반으로 하는 것, 즉 시각적 타겟과 정확하게 상호작용하는 것입니다.
본 논문은 GUI 테스트 타임 스케일링 에이전트, 즉 GTA1을 통해 앞서 언급한 두 가지 과제를 조사합니다. 먼저, 가장 적절한 액션 제안을 선택하기 위해 테스트 타임 스케일링 방법을 도입합니다. 각 단계에서 여러 후보 액션 제안을 샘플링하고, 판단 모델을 활용하여 가장 적합한 것을 평가하고 선택합니다. 이는 동시 샘플링을 통해 계산을 교환하여 더 나은 결정 품질을 얻고, 작업 실행 단계를 단축하며, 전반적인 성능을 향상시킵니다. 둘째, 선택된 액션 제안을 해당 시각적 요소에 정확하게 기반으로 하는 모델을 제안합니다. 우리의 핵심 통찰은 강화 학습(RL)이 내재된 목표 정렬을 통해 시각적 기반을 촉진하고, 인터페이스 요소에 성공적으로 클릭하는 것을 보상한다는 것입니다.
실험적으로, 우리의 방법은 다양한 벤치마크에서 최첨단 성능을 확립합니다. 예를 들어, GTA1-7B는 Screenspot-Pro, Screenspot-V2, OSWorld-G에서 각각 50.1%, 92.4%, 67.7%의 정확도를 달성합니다. 테스트 타임 스케일링 전략을 적용한 플래너와 결합할 때, 최첨단 에이전트 성능을 보입니다(예: OSWorld에서 45.2% 작업 성공률). 우리는 코드와 모델을 여기에 오픈소스로 공개합니다.
English
Graphical user interface (GUI) agents autonomously operate across platforms
(e.g., Linux) to complete tasks by interacting with visual elements.
Specifically, a user instruction is decomposed into a sequence of action
proposals, each corresponding to an interaction with the GUI. After each
action, the agent observes the updated GUI environment to plan the next step.
However, two main challenges arise: i) resolving ambiguity in task planning
(i.e., the action proposal sequence), where selecting an appropriate plan is
non-trivial, as many valid ones may exist; ii) accurately grounding actions in
complex and high-resolution interfaces, i.e., precisely interacting with visual
targets.
This paper investigates the two aforementioned challenges with our GUI
Test-time Scaling Agent, namely GTA1. First, to select the most appropriate
action proposal, we introduce a test-time scaling method. At each step, we
sample multiple candidate action proposals and leverage a judge model to
evaluate and select the most suitable one. It trades off computation for better
decision quality by concurrent sampling, shortening task execution steps, and
improving overall performance. Second, we propose a model that achieves
improved accuracy when grounding the selected action proposal to its
corresponding visual elements. Our key insight is that reinforcement learning
(RL) facilitates visual grounding through inherent objective alignments,
rewarding successful clicks on interface elements.
Experimentally, our method establishes state-of-the-art performance across
diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7%
accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When
paired with a planner applying our test-time scaling strategy, it exhibits
state-of-the-art agentic performance (e.g., 45.2% task success rate on
OSWorld). We open-source our code and models here.