GTA1: GUI-Testzeit-Skalierungsagent
GTA1: GUI Test-time Scaling Agent
July 8, 2025
papers.authors: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI
papers.abstract
Graphical User Interface (GUI)-Agenten operieren plattformübergreifend (z. B. unter Linux) autonom, um Aufgaben durch die Interaktion mit visuellen Elementen zu erledigen. Konkret wird eine Benutzeranweisung in eine Sequenz von Aktionsvorschlägen zerlegt, die jeweils einer Interaktion mit der GUI entsprechen. Nach jeder Aktion beobachtet der Agent die aktualisierte GUI-Umgebung, um den nächsten Schritt zu planen. Dabei ergeben sich jedoch zwei Hauptherausforderungen: i) die Auflösung von Mehrdeutigkeiten in der Aufgabenplanung (d. h. der Aktionsvorschlagssequenz), da die Auswahl eines geeigneten Plans nicht trivial ist, da viele gültige Pläne existieren können; ii) die präzise Verankerung von Aktionen in komplexen und hochauflösenden Benutzeroberflächen, d. h. die exakte Interaktion mit visuellen Zielen.
Dieses Papier untersucht die beiden genannten Herausforderungen mit unserem GUI-Testzeit-Skalierungs-Agenten, genannt GTA1. Erstens führen wir eine Testzeit-Skalierungsmethode ein, um den am besten geeigneten Aktionsvorschlag auszuwählen. In jedem Schritt werden mehrere Kandidaten-Aktionsvorschläge gesampelt und ein Bewertungsmodell genutzt, um den passendsten auszuwählen. Dies tauscht Rechenleistung gegen bessere Entscheidungsqualität durch paralleles Sampling, verkürzt die Aufgabenausführungsschritte und verbessert die Gesamtleistung. Zweitens schlagen wir ein Modell vor, das eine höhere Genauigkeit bei der Verankerung des ausgewählten Aktionsvorschlags in den entsprechenden visuellen Elementen erreicht. Unsere zentrale Erkenntnis ist, dass Reinforcement Learning (RL) die visuelle Verankerung durch inhärente Zielausrichtungen erleichtert, indem erfolgreiche Klicks auf Benutzeroberflächenelemente belohnt werden.
Experimentell erzielt unsere Methode state-of-the-art Leistungen in diversen Benchmarks. Beispielsweise erreicht GTA1-7B Genauigkeiten von 50,1 %, 92,4 % und 67,7 % auf Screenspot-Pro, Screenspot-V2 und OSWorld-G. In Kombination mit einem Planer, der unsere Testzeit-Skalierungsstrategie anwendet, zeigt er state-of-the-art agentische Leistungen (z. B. eine Aufgaben-Erfolgsrate von 45,2 % auf OSWorld). Wir stellen unseren Code und unsere Modelle hier Open-Source zur Verfügung.
English
Graphical user interface (GUI) agents autonomously operate across platforms
(e.g., Linux) to complete tasks by interacting with visual elements.
Specifically, a user instruction is decomposed into a sequence of action
proposals, each corresponding to an interaction with the GUI. After each
action, the agent observes the updated GUI environment to plan the next step.
However, two main challenges arise: i) resolving ambiguity in task planning
(i.e., the action proposal sequence), where selecting an appropriate plan is
non-trivial, as many valid ones may exist; ii) accurately grounding actions in
complex and high-resolution interfaces, i.e., precisely interacting with visual
targets.
This paper investigates the two aforementioned challenges with our GUI
Test-time Scaling Agent, namely GTA1. First, to select the most appropriate
action proposal, we introduce a test-time scaling method. At each step, we
sample multiple candidate action proposals and leverage a judge model to
evaluate and select the most suitable one. It trades off computation for better
decision quality by concurrent sampling, shortening task execution steps, and
improving overall performance. Second, we propose a model that achieves
improved accuracy when grounding the selected action proposal to its
corresponding visual elements. Our key insight is that reinforcement learning
(RL) facilitates visual grounding through inherent objective alignments,
rewarding successful clicks on interface elements.
Experimentally, our method establishes state-of-the-art performance across
diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7%
accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When
paired with a planner applying our test-time scaling strategy, it exhibits
state-of-the-art agentic performance (e.g., 45.2% task success rate on
OSWorld). We open-source our code and models here.