GTA1: Agente de Escalado en Tiempo de Prueba de GUI

Resumen

Los agentes de interfaz gráfica de usuario (GUI) operan de manera autónoma en diversas plataformas (por ejemplo, Linux) para completar tareas mediante la interacción con elementos visuales. Específicamente, una instrucción del usuario se descompone en una secuencia de propuestas de acción, cada una correspondiente a una interacción con la GUI. Después de cada acción, el agente observa el entorno actualizado de la GUI para planificar el siguiente paso. Sin embargo, surgen dos desafíos principales: i) resolver la ambigüedad en la planificación de tareas (es decir, la secuencia de propuestas de acción), donde seleccionar un plan adecuado no es trivial, ya que pueden existir muchos válidos; ii) fundamentar con precisión las acciones en interfaces complejas y de alta resolución, es decir, interactuar de manera precisa con objetivos visuales. Este artículo investiga los dos desafíos mencionados con nuestro Agente de Escalado en Tiempo de Prueba para GUI, denominado GTA1. Primero, para seleccionar la propuesta de acción más adecuada, introducimos un método de escalado en tiempo de prueba. En cada paso, muestreamos múltiples propuestas de acción candidatas y utilizamos un modelo juez para evaluar y seleccionar la más adecuada. Este método intercambia computación por una mejor calidad en la toma de decisiones mediante muestreo concurrente, acortando los pasos de ejecución de la tarea y mejorando el rendimiento general. Segundo, proponemos un modelo que logra una mayor precisión al fundamentar la propuesta de acción seleccionada en sus elementos visuales correspondientes. Nuestra idea clave es que el aprendizaje por refuerzo (RL) facilita la fundamentación visual a través de alineaciones objetivas inherentes, recompensando clics exitosos en elementos de la interfaz. Experimentalmente, nuestro método establece un rendimiento de vanguardia en diversos puntos de referencia. Por ejemplo, GTA1-7B logra precisiones del 50.1%, 92.4% y 67.7% en Screenspot-Pro, Screenspot-V2 y OSWorld-G, respectivamente. Cuando se combina con un planificador que aplica nuestra estrategia de escalado en tiempo de prueba, exhibe un rendimiento agéntico de vanguardia (por ejemplo, una tasa de éxito en tareas del 45.2% en OSWorld). Hemos liberado nuestro código y modelos aquí.

English

Graphical user interface (GUI) agents autonomously operate across platforms (e.g., Linux) to complete tasks by interacting with visual elements. Specifically, a user instruction is decomposed into a sequence of action proposals, each corresponding to an interaction with the GUI. After each action, the agent observes the updated GUI environment to plan the next step. However, two main challenges arise: i) resolving ambiguity in task planning (i.e., the action proposal sequence), where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, i.e., precisely interacting with visual targets. This paper investigates the two aforementioned challenges with our GUI Test-time Scaling Agent, namely GTA1. First, to select the most appropriate action proposal, we introduce a test-time scaling method. At each step, we sample multiple candidate action proposals and leverage a judge model to evaluate and select the most suitable one. It trades off computation for better decision quality by concurrent sampling, shortening task execution steps, and improving overall performance. Second, we propose a model that achieves improved accuracy when grounding the selected action proposal to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates visual grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, our method establishes state-of-the-art performance across diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7% accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When paired with a planner applying our test-time scaling strategy, it exhibits state-of-the-art agentic performance (e.g., 45.2% task success rate on OSWorld). We open-source our code and models here.

GTA1: Agente de Escalado en Tiempo de Prueba de GUI

GTA1: GUI Test-time Scaling Agent

Resumen

Support