GTA1: Agente di Scalatura al Tempo di Test per GUI
GTA1: GUI Test-time Scaling Agent
July 8, 2025
Autori: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI
Abstract
Gli agenti di interfaccia grafica (GUI) operano autonomamente su diverse piattaforme (ad esempio, Linux) per completare attività interagendo con elementi visivi. Nello specifico, un'istruzione dell'utente viene scomposta in una sequenza di proposte di azione, ciascuna corrispondente a un'interazione con la GUI. Dopo ogni azione, l'agente osserva l'ambiente GUI aggiornato per pianificare il passaggio successivo. Tuttavia, emergono due principali sfide: i) risolvere l'ambiguità nella pianificazione delle attività (cioè, la sequenza di proposte di azione), dove selezionare un piano appropriato non è banale, poiché possono esistere molte opzioni valide; ii) ancorare con precisione le azioni in interfacce complesse e ad alta risoluzione, ovvero interagire in modo preciso con obiettivi visivi.
Questo articolo esamina le due sfide sopra menzionate con il nostro agente di scalatura al momento del test, denominato GTA1. Innanzitutto, per selezionare la proposta di azione più appropriata, introduciamo un metodo di scalatura al momento del test. A ogni passaggio, campioniamo più proposte di azione candidate e utilizziamo un modello giudice per valutare e selezionare quella più adatta. Questo approccio bilancia il calcolo con una migliore qualità decisionale attraverso il campionamento concorrente, riducendo i passaggi di esecuzione delle attività e migliorando le prestazioni complessive. In secondo luogo, proponiamo un modello che ottiene una maggiore accuratezza nell'ancorare la proposta di azione selezionata ai corrispondenti elementi visivi. La nostra intuizione chiave è che l'apprendimento per rinforzo (RL) facilita l'ancoraggio visivo attraverso allineamenti intrinseci degli obiettivi, premiando i clic riusciti sugli elementi dell'interfaccia.
Sperimentalmente, il nostro metodo stabilisce prestazioni all'avanguardia su diversi benchmark. Ad esempio, GTA1-7B raggiunge precisioni del 50,1%, 92,4% e 67,7% rispettivamente su Screenspot-Pro, Screenspot-V2 e OSWorld-G. Quando abbinato a un pianificatore che applica la nostra strategia di scalatura al momento del test, mostra prestazioni agentiche all'avanguardia (ad esempio, un tasso di successo delle attività del 45,2% su OSWorld). Rendiamo disponibili il nostro codice e i modelli qui.
English
Graphical user interface (GUI) agents autonomously operate across platforms
(e.g., Linux) to complete tasks by interacting with visual elements.
Specifically, a user instruction is decomposed into a sequence of action
proposals, each corresponding to an interaction with the GUI. After each
action, the agent observes the updated GUI environment to plan the next step.
However, two main challenges arise: i) resolving ambiguity in task planning
(i.e., the action proposal sequence), where selecting an appropriate plan is
non-trivial, as many valid ones may exist; ii) accurately grounding actions in
complex and high-resolution interfaces, i.e., precisely interacting with visual
targets.
This paper investigates the two aforementioned challenges with our GUI
Test-time Scaling Agent, namely GTA1. First, to select the most appropriate
action proposal, we introduce a test-time scaling method. At each step, we
sample multiple candidate action proposals and leverage a judge model to
evaluate and select the most suitable one. It trades off computation for better
decision quality by concurrent sampling, shortening task execution steps, and
improving overall performance. Second, we propose a model that achieves
improved accuracy when grounding the selected action proposal to its
corresponding visual elements. Our key insight is that reinforcement learning
(RL) facilitates visual grounding through inherent objective alignments,
rewarding successful clicks on interface elements.
Experimentally, our method establishes state-of-the-art performance across
diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7%
accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When
paired with a planner applying our test-time scaling strategy, it exhibits
state-of-the-art agentic performance (e.g., 45.2% task success rate on
OSWorld). We open-source our code and models here.