GTA1: Agente de Escalado en Tiempo de Prueba de GUI
GTA1: GUI Test-time Scaling Agent
July 8, 2025
Autores: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI
Resumen
Los agentes de interfaz gráfica de usuario (GUI) operan de manera autónoma en diversas plataformas (por ejemplo, Linux) para completar tareas mediante la interacción con elementos visuales. Específicamente, una instrucción del usuario se descompone en una secuencia de propuestas de acción, cada una correspondiente a una interacción con la GUI. Después de cada acción, el agente observa el entorno actualizado de la GUI para planificar el siguiente paso. Sin embargo, surgen dos desafíos principales: i) resolver la ambigüedad en la planificación de tareas (es decir, la secuencia de propuestas de acción), donde seleccionar un plan adecuado no es trivial, ya que pueden existir muchos válidos; ii) fundamentar con precisión las acciones en interfaces complejas y de alta resolución, es decir, interactuar de manera precisa con objetivos visuales.
Este artículo investiga los dos desafíos mencionados con nuestro Agente de Escalado en Tiempo de Prueba para GUI, denominado GTA1. Primero, para seleccionar la propuesta de acción más adecuada, introducimos un método de escalado en tiempo de prueba. En cada paso, muestreamos múltiples propuestas de acción candidatas y utilizamos un modelo juez para evaluar y seleccionar la más adecuada. Este método intercambia computación por una mejor calidad en la toma de decisiones mediante muestreo concurrente, acortando los pasos de ejecución de la tarea y mejorando el rendimiento general. Segundo, proponemos un modelo que logra una mayor precisión al fundamentar la propuesta de acción seleccionada en sus elementos visuales correspondientes. Nuestra idea clave es que el aprendizaje por refuerzo (RL) facilita la fundamentación visual a través de alineaciones objetivas inherentes, recompensando clics exitosos en elementos de la interfaz.
Experimentalmente, nuestro método establece un rendimiento de vanguardia en diversos puntos de referencia. Por ejemplo, GTA1-7B logra precisiones del 50.1%, 92.4% y 67.7% en Screenspot-Pro, Screenspot-V2 y OSWorld-G, respectivamente. Cuando se combina con un planificador que aplica nuestra estrategia de escalado en tiempo de prueba, exhibe un rendimiento agéntico de vanguardia (por ejemplo, una tasa de éxito en tareas del 45.2% en OSWorld). Hemos liberado nuestro código y modelos aquí.
English
Graphical user interface (GUI) agents autonomously operate across platforms
(e.g., Linux) to complete tasks by interacting with visual elements.
Specifically, a user instruction is decomposed into a sequence of action
proposals, each corresponding to an interaction with the GUI. After each
action, the agent observes the updated GUI environment to plan the next step.
However, two main challenges arise: i) resolving ambiguity in task planning
(i.e., the action proposal sequence), where selecting an appropriate plan is
non-trivial, as many valid ones may exist; ii) accurately grounding actions in
complex and high-resolution interfaces, i.e., precisely interacting with visual
targets.
This paper investigates the two aforementioned challenges with our GUI
Test-time Scaling Agent, namely GTA1. First, to select the most appropriate
action proposal, we introduce a test-time scaling method. At each step, we
sample multiple candidate action proposals and leverage a judge model to
evaluate and select the most suitable one. It trades off computation for better
decision quality by concurrent sampling, shortening task execution steps, and
improving overall performance. Second, we propose a model that achieves
improved accuracy when grounding the selected action proposal to its
corresponding visual elements. Our key insight is that reinforcement learning
(RL) facilitates visual grounding through inherent objective alignments,
rewarding successful clicks on interface elements.
Experimentally, our method establishes state-of-the-art performance across
diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7%
accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When
paired with a planner applying our test-time scaling strategy, it exhibits
state-of-the-art agentic performance (e.g., 45.2% task success rate on
OSWorld). We open-source our code and models here.