ChatPaper.aiChatPaper

GTA1 : Agent de mise à l'échelle au moment des tests d'interface graphique

GTA1: GUI Test-time Scaling Agent

July 8, 2025
papers.authors: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI

papers.abstract

Les agents d'interface utilisateur graphique (GUI) opèrent de manière autonome sur diverses plateformes (par exemple, Linux) pour accomplir des tâches en interagissant avec des éléments visuels. Plus précisément, une instruction utilisateur est décomposée en une séquence de propositions d'actions, chacune correspondant à une interaction avec l'interface graphique. Après chaque action, l'agent observe l'environnement GUI mis à jour pour planifier l'étape suivante. Cependant, deux défis majeurs se posent : i) résoudre l'ambiguïté dans la planification des tâches (c'est-à-dire la séquence de propositions d'actions), où la sélection d'un plan approprié est non triviale, car plusieurs plans valides peuvent exister ; ii) ancrer avec précision les actions dans des interfaces complexes et à haute résolution, c'est-à-dire interagir précisément avec des cibles visuelles. Cet article examine les deux défis mentionnés ci-dessus avec notre agent de mise à l'échelle au moment du test, nommé GTA1. Premièrement, pour sélectionner la proposition d'action la plus appropriée, nous introduisons une méthode de mise à l'échelle au moment du test. À chaque étape, nous échantillonnons plusieurs propositions d'actions candidates et utilisons un modèle de jugement pour évaluer et sélectionner la plus adaptée. Cela permet de faire un compromis entre le calcul et la qualité de la décision grâce à un échantillonnage concurrent, en réduisant les étapes d'exécution des tâches et en améliorant les performances globales. Deuxièmement, nous proposons un modèle qui améliore la précision lors de l'ancrage de la proposition d'action sélectionnée à ses éléments visuels correspondants. Notre idée clé est que l'apprentissage par renforcement (RL) facilite l'ancrage visuel grâce à des alignements d'objectifs inhérents, récompensant les clics réussis sur les éléments de l'interface. Expérimentalement, notre méthode établit des performances de pointe sur divers benchmarks. Par exemple, GTA1-7B atteint des précisions de 50,1 %, 92,4 % et 67,7 % sur Screenspot-Pro, Screenspot-V2 et OSWorld-G, respectivement. Lorsqu'il est associé à un planificateur appliquant notre stratégie de mise à l'échelle au moment du test, il montre des performances agentiques de pointe (par exemple, un taux de réussite des tâches de 45,2 % sur OSWorld). Nous mettons à disposition notre code et nos modèles en open source ici.
English
Graphical user interface (GUI) agents autonomously operate across platforms (e.g., Linux) to complete tasks by interacting with visual elements. Specifically, a user instruction is decomposed into a sequence of action proposals, each corresponding to an interaction with the GUI. After each action, the agent observes the updated GUI environment to plan the next step. However, two main challenges arise: i) resolving ambiguity in task planning (i.e., the action proposal sequence), where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, i.e., precisely interacting with visual targets. This paper investigates the two aforementioned challenges with our GUI Test-time Scaling Agent, namely GTA1. First, to select the most appropriate action proposal, we introduce a test-time scaling method. At each step, we sample multiple candidate action proposals and leverage a judge model to evaluate and select the most suitable one. It trades off computation for better decision quality by concurrent sampling, shortening task execution steps, and improving overall performance. Second, we propose a model that achieves improved accuracy when grounding the selected action proposal to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates visual grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, our method establishes state-of-the-art performance across diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7% accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When paired with a planner applying our test-time scaling strategy, it exhibits state-of-the-art agentic performance (e.g., 45.2% task success rate on OSWorld). We open-source our code and models here.
PDF241July 9, 2025