ChatPaper.aiChatPaper

GTA1: GUI Schaalagent voor Testtijd

GTA1: GUI Test-time Scaling Agent

July 8, 2025
Auteurs: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI

Samenvatting

Grafische gebruikersinterface (GUI) agents opereren autonoom op verschillende platforms (bijv. Linux) om taken uit te voeren door interactie met visuele elementen. Specifiek wordt een gebruikersinstructie opgedeeld in een reeks actievoorstellen, waarbij elk overeenkomt met een interactie met de GUI. Na elke actie observeert de agent de bijgewerkte GUI-omgeving om de volgende stap te plannen. Er doen zich echter twee belangrijke uitdagingen voor: i) het oplossen van ambiguïteit in taakplanning (d.w.z. de reeks actievoorstellen), waarbij het selecteren van een geschikt plan niet triviaal is, aangezien er veel geldige plannen kunnen bestaan; ii) het nauwkeurig verankeren van acties in complexe en hoogresolutie-interfaces, d.w.z. precies interageren met visuele doelen. Dit artikel onderzoekt de twee bovengenoemde uitdagingen met onze GUI Test-time Scaling Agent, genaamd GTA1. Ten eerste introduceren we een test-time scaling methode om het meest geschikte actievoorstel te selecteren. Bij elke stap nemen we meerdere kandidaat-actievoorstellen en gebruiken we een beoordelingsmodel om het meest geschikte te evalueren en te selecteren. Dit wisselt rekenkracht in voor betere beslissingskwaliteit door gelijktijdige steekproeven, verkorting van taakuitvoeringsstappen en verbetering van de algehele prestaties. Ten tweede stellen we een model voor dat een verbeterde nauwkeurigheid bereikt bij het verankeren van het geselecteerde actievoorstel aan de bijbehorende visuele elementen. Onze belangrijkste inzicht is dat reinforcement learning (RL) visuele verankering vergemakkelijkt door inherente doelafstemmingen, waarbij succesvolle klikken op interface-elementen worden beloond. Experimenteel vestigt onze methode state-of-the-art prestaties op diverse benchmarks. GTA1-7B behaalt bijvoorbeeld nauwkeurigheden van 50,1%, 92,4% en 67,7% op respectievelijk Screenspot-Pro, Screenspot-V2 en OSWorld-G. Wanneer het wordt gecombineerd met een planner die onze test-time scaling strategie toepast, vertoont het state-of-the-art agentprestaties (bijv. een taaksuccespercentage van 45,2% op OSWorld). We maken onze code en modellen hier openbaar.
English
Graphical user interface (GUI) agents autonomously operate across platforms (e.g., Linux) to complete tasks by interacting with visual elements. Specifically, a user instruction is decomposed into a sequence of action proposals, each corresponding to an interaction with the GUI. After each action, the agent observes the updated GUI environment to plan the next step. However, two main challenges arise: i) resolving ambiguity in task planning (i.e., the action proposal sequence), where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, i.e., precisely interacting with visual targets. This paper investigates the two aforementioned challenges with our GUI Test-time Scaling Agent, namely GTA1. First, to select the most appropriate action proposal, we introduce a test-time scaling method. At each step, we sample multiple candidate action proposals and leverage a judge model to evaluate and select the most suitable one. It trades off computation for better decision quality by concurrent sampling, shortening task execution steps, and improving overall performance. Second, we propose a model that achieves improved accuracy when grounding the selected action proposal to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates visual grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, our method establishes state-of-the-art performance across diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7% accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When paired with a planner applying our test-time scaling strategy, it exhibits state-of-the-art agentic performance (e.g., 45.2% task success rate on OSWorld). We open-source our code and models here.
PDF261July 9, 2025