ChatPaper.aiChatPaper

TreeCUA : Mise à l'échelle efficace de l'automatisation des interfaces graphiques par une évolution vérifiable à structure arborescente

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

February 10, 2026
papers.authors: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng
cs.AI

papers.abstract

L'extensibilité efficace de l'automatisation des interfaces graphiques est essentielle pour les agents d'utilisation informatique (CUA) ; cependant, les travaux existants se concentrent principalement sur l'ancrage des interfaces graphiques plutôt que sur la planification des interfaces graphiques, plus cruciale et nécessitant une collecte de données plus sophistiquée. En réalité, le processus d'exploration d'un CUA à travers les applications, les bureaux et les pages web suit généralement une structure arborescente, les points d'entrée fonctionnels antérieurs étant souvent explorés plus fréquemment. Ainsi, organiser les trajectoires à grande échelle en structures arborescentes peut réduire le coût des données et rationaliser la mise à l'échelle des données pour la planification des interfaces graphiques. Dans ce travail, nous proposons TreeCUA pour étendre efficacement l'automatisation des interfaces graphiques avec une évolution vérifiable structurée en arbre. Nous proposons un cadre collaboratif multi-agents pour explorer l'environnement, vérifier les actions, résumer les trajectoires et évaluer la qualité afin de générer des trajectoires d'interface graphique évolutives et de haute qualité. Pour améliorer l'efficacité, nous concevons une topologie novatrice basée sur les arbres pour stocker et rejouer les nœuds d'exploration dupliqués, et concevons un algorithme d'exploration adaptatif pour équilibrer la profondeur (c'est-à-dire la difficulté de la trajectoire) et la largeur (c'est-à-dire la diversité des trajectoires). De plus, nous développons un guidage par connaissance du monde et un retour en arrière par mémoire globale pour éviter une génération de faible qualité. Enfin, nous étendons naturellement et proposons la méthode TreeCUA-DPO à partir des informations abondantes des nœuds de l'arbre, améliorant la capacité de planification des interfaces graphiques en se référant aux informations des branches des trajectoires adjacentes. Les résultats expérimentaux montrent que TreeCUA et TreeCUA-DPO offrent des améliorations significatives, et les études hors domaine (OOD) démontrent en outre une forte généralisation. Toutes les informations sur les nœuds de trajectoire et le code seront disponibles sur https://github.com/UITron-hub/TreeCUA.
English
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
PDF51February 12, 2026