ChatPaper.aiChatPaper

TreeCUA: Эффективное масштабирование автоматизации графического интерфейса с помощью верифицируемой эволюции древовидной структуры

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

February 10, 2026
Авторы: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng
cs.AI

Аннотация

Эффективное масштабирование автоматизации графического интерфейса пользователя (GUI) является ключевой задачей для агентов взаимодействия с компьютером (computer-use agents, CUA); однако существующие работы в основном сосредоточены на масштабировании привязки к GUI, а не на более важном планировании действий в GUI, которое требует более сложного сбора данных. В реальности процесс исследования CUA различных приложений, рабочих столов или веб-страниц обычно следует древовидной структуре, причем более ранние функциональные точки входа исследуются чаще. Таким образом, организация крупномасштабных траекторий в древовидные структуры позволяет снизить затраты на данные и оптимизировать масштабирование данных для планирования GUI. В данной работе мы предлагаем TreeCUA для эффективного масштабирования автоматизации GUI с помощью верифицируемой эволюции на основе древовидных структур. Мы предлагаем многоАгентную систему совместной работы для исследования среды, проверки действий, суммирования траекторий и оценки качества с целью генерации высококачественных и масштабируемых траекторий GUI. Для повышения эффективности мы разрабатываем новую древовидную топологию для хранения и воспроизведения дублирующихся узлов исследования, а также адаптивный алгоритм исследования для балансировки глубины (т.е. сложности траектории) и ширины (т.е. разнообразия траекторий). Кроме того, мы разрабатываем механизмы ориентации на знания о мире и глобального backtracking-а с памятью, чтобы избежать генерации низкокачественных данных. Наконец, мы естественным образом расширяем подход и предлагаем метод TreeCUA-DPO на основе избыточной информации из узлов дерева, улучшая способность к планированию GUI за счет учета информации о смежных траекториях (ветвях). Результаты экспериментов показывают, что TreeCUA и TreeCUA-DPO обеспечивают значительное улучшение, а исследования на внедоменных данных (out-of-domain, OOD) дополнительно демонстрируют сильную обобщающую способность. Вся информация о узлах траекторий и код будут доступны по адресу https://github.com/UITron-hub/TreeCUA.
English
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
PDF51February 12, 2026