TreeCUA: Efficiënte schaalvergroting van GUI-automatisering met boomgestructureerde verifieerbare evolutie
TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution
February 10, 2026
Auteurs: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng
cs.AI
Samenvatting
Het effectief schalen van GUI-automatisering is essentieel voor computer-use agents (CUA's); bestaand werk richt zich echter voornamelijk op het schalen van GUI-gronding in plaats van de crucialere GUI-planning, wat geavanceerdere gegevensverzameling vereist. In werkelijkheid volgt het verkenningsproces van een CUA over apps/desktopomgevingen/webpagina's typisch een boomstructuur, waarbij eerdere functionele toegangspunten vaak frequenter worden verkend. Het organiseren van grootschalige trajecten in boomstructuren kan daarom de datakosten verlagen en de gegevensschaling voor GUI-planning stroomlijnen. In dit werk stellen we TreeCUA voor om GUI-automatisering efficiënt te schalen met boomgestructureerde verifieerbare evolutie. We introduceren een multi-agent samenwerkingsframework om de omgeving te verkennen, acties te verifiëren, trajecten samen te vatten en kwaliteit te evalueren om hoogwaardige en schaalbare GUI-trajecten te genereren. Om de efficiëntie te verbeteren, ontwerpen we een nieuwe boomgebaseerde topologie om dubbele verkenningsknooppunten op te slaan en af te spelen, en ontwikkelen we een adaptief verkenningsalgoritme om diepte (d.w.z. trajectmoeilijkheid) en breedte (d.w.z. trajectdiversiteit) in evenwicht te brengen. Bovendien ontwikkelen we wereldkennishandhaving en globaal geheugen-backtracking om gegenereerde trajecten van lage kwaliteit te vermijden. Ten slotte breiden we TreeCUA natuurlijk uit en stellen we de TreeCUA-DPO-methode voor, gebruikmakend van de overvloedige boomknoopinformatie, om de GUI-planningscapaciteit te verbeteren door te refereren aan de takinformatie van aangrenzende trajecten. Experimentele resultaten tonen aan dat TreeCUA en TreeCUA-DPO significante verbeteringen bieden, en out-of-domain (OOD)-studies demonstreren verder sterke generalisatie. Alle trajectknoopinformatie en code zullen beschikbaar zijn op https://github.com/UITron-hub/TreeCUA.
English
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.