GTA1: Агент масштабирования графического интерфейса во время тестирования
GTA1: GUI Test-time Scaling Agent
July 8, 2025
Авторы: Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li
cs.AI
Аннотация
Агенты с графическим пользовательским интерфейсом (GUI) автономно работают на различных платформах (например, Linux), выполняя задачи путем взаимодействия с визуальными элементами. Конкретно, пользовательская инструкция разбивается на последовательность предложений действий, каждое из которых соответствует взаимодействию с GUI. После каждого действия агент наблюдает за обновленной средой GUI, чтобы спланировать следующий шаг. Однако возникают две основные проблемы: i) разрешение неоднозначности в планировании задач (т.е. последовательности предложений действий), где выбор подходящего плана нетривиален, так как может существовать множество допустимых вариантов; ii) точное выполнение действий в сложных и высокоразрешающих интерфейсах, т.е. точное взаимодействие с визуальными целями.
В данной статье исследуются две вышеупомянутые проблемы с помощью нашего агента масштабирования на этапе тестирования GUI, а именно GTA1. Во-первых, для выбора наиболее подходящего предложения действия мы вводим метод масштабирования на этапе тестирования. На каждом шаге мы выбираем несколько кандидатов предложений действий и используем модель-судию для оценки и выбора наиболее подходящего. Это позволяет обменять вычислительные ресурсы на лучшее качество решений за счет параллельного выборки, сокращения шагов выполнения задач и улучшения общей производительности. Во-вторых, мы предлагаем модель, которая достигает повышенной точности при привязке выбранного предложения действия к соответствующим визуальным элементам. Наше ключевое наблюдение заключается в том, что обучение с подкреплением (RL) способствует визуальной привязке через внутреннее согласование целей, вознаграждая успешные клики по элементам интерфейса.
Экспериментально наш метод демонстрирует передовые результаты на различных тестовых наборах. Например, GTA1-7B достигает точности 50.1%, 92.4% и 67.7% на Screenspot-Pro, Screenspot-V2 и OSWorld-G соответственно. В сочетании с планировщиком, применяющим нашу стратегию масштабирования на этапе тестирования, он показывает передовые результаты в агентской производительности (например, 45.2% успешности задач на OSWorld). Мы открываем исходный код и модели здесь.
English
Graphical user interface (GUI) agents autonomously operate across platforms
(e.g., Linux) to complete tasks by interacting with visual elements.
Specifically, a user instruction is decomposed into a sequence of action
proposals, each corresponding to an interaction with the GUI. After each
action, the agent observes the updated GUI environment to plan the next step.
However, two main challenges arise: i) resolving ambiguity in task planning
(i.e., the action proposal sequence), where selecting an appropriate plan is
non-trivial, as many valid ones may exist; ii) accurately grounding actions in
complex and high-resolution interfaces, i.e., precisely interacting with visual
targets.
This paper investigates the two aforementioned challenges with our GUI
Test-time Scaling Agent, namely GTA1. First, to select the most appropriate
action proposal, we introduce a test-time scaling method. At each step, we
sample multiple candidate action proposals and leverage a judge model to
evaluate and select the most suitable one. It trades off computation for better
decision quality by concurrent sampling, shortening task execution steps, and
improving overall performance. Second, we propose a model that achieves
improved accuracy when grounding the selected action proposal to its
corresponding visual elements. Our key insight is that reinforcement learning
(RL) facilitates visual grounding through inherent objective alignments,
rewarding successful clicks on interface elements.
Experimentally, our method establishes state-of-the-art performance across
diverse benchmarks. For example, GTA1-7B achieves 50.1%, 92.4%, and 67.7%
accuracies on Screenspot-Pro, Screenspot-V2, and OSWorld-G, respectively. When
paired with a planner applying our test-time scaling strategy, it exhibits
state-of-the-art agentic performance (e.g., 45.2% task success rate on
OSWorld). We open-source our code and models here.