ChatPaper.aiChatPaper

GTA1: Agente de Escalonamento em Tempo de Teste de Interface Gráfica

GTA1: GUI Test-time Scaling Agent

July 8, 2025
Autores: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI

Resumo

Agentes de interface gráfica do usuário (GUI) operam de forma autônoma em diversas plataformas (por exemplo, Linux) para concluir tarefas por meio da interação com elementos visuais. Especificamente, uma instrução do usuário é decomposta em uma sequência de propostas de ação, cada uma correspondendo a uma interação com a GUI. Após cada ação, o agente observa o ambiente atualizado da GUI para planejar o próximo passo. No entanto, dois desafios principais surgem: i) resolver a ambiguidade no planejamento de tarefas (ou seja, a sequência de propostas de ação), onde a seleção de um plano apropriado não é trivial, pois muitos planos válidos podem existir; ii) fundamentar ações com precisão em interfaces complexas e de alta resolução, ou seja, interagir de forma precisa com alvos visuais. Este artigo investiga os dois desafios mencionados com nosso Agente de Escalonamento em Tempo de Teste de GUI, denominado GTA1. Primeiro, para selecionar a proposta de ação mais apropriada, introduzimos um método de escalonamento em tempo de teste. A cada passo, amostramos múltiplas propostas de ação candidatas e utilizamos um modelo de avaliação para selecionar a mais adequada. Esse método troca computação por melhor qualidade de decisão por meio de amostragem concorrente, reduzindo os passos de execução da tarefa e melhorando o desempenho geral. Segundo, propomos um modelo que alcança maior precisão ao fundamentar a proposta de ação selecionada em seus elementos visuais correspondentes. Nossa principal percepção é que o aprendizado por reforço (RL) facilita a fundamentação visual por meio de alinhamentos objetivos intrínsecos, recompensando cliques bem-sucedidos em elementos da interface. Experimentalmente, nosso método estabelece desempenho de ponta em diversos benchmarks. Por exemplo, o GTA1-7B alcança acurácias de 50,1%, 92,4% e 67,7% em Screenspot-Pro, Screenspot-V2 e OSWorld-G, respectivamente. Quando emparelhado com um planejador que aplica nossa estratégia de escalonamento em tempo de teste, ele exibe desempenho agente de ponta (por exemplo, taxa de sucesso de tarefa de 45,2% em OSWorld). Disponibilizamos nosso código e modelos aqui.
English
Graphical user interface (GUI) agents autonomously operate across platforms (e.g., Linux) to complete tasks by interacting with visual elements. Specifically, a user instruction is decomposed into a sequence of action proposals, each corresponding to an interaction with the GUI. After each action, the agent observes the updated GUI environment to plan the next step. However, two main challenges arise: i) resolving ambiguity in task planning (i.e., the action proposal sequence), where selecting an appropriate plan is non-trivial, as many valid ones may exist; ii) accurately grounding actions in complex and high-resolution interfaces, i.e., precisely interacting with visual targets. This paper investigates the two aforementioned challenges with our GUI Test-time Scaling Agent, namely GTA1. First, to select the most appropriate action proposal, we introduce a test-time scaling method. At each step, we sample multiple candidate action proposals and leverage a judge model to evaluate and select the most suitable one. It trades off computation for better decision quality by concurrent sampling, shortening task execution steps, and improving overall performance. Second, we propose a model that achieves improved accuracy when grounding the selected action proposal to its corresponding visual elements. Our key insight is that reinforcement learning (RL) facilitates visual grounding through inherent objective alignments, rewarding successful clicks on interface elements. Experimentally, our method establishes state-of-the-art performance across diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7% accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When paired with a planner applying our test-time scaling strategy, it exhibits state-of-the-art agentic performance (e.g., 45.2% task success rate on OSWorld). We open-source our code and models here.
PDF251July 9, 2025