ChatPaper.aiChatPaper

TreeCUA: Scalabilità Efficiente dell'Automazione GUI con Evoluzione Verificabile a Struttura Ad Albero

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

February 10, 2026
Autori: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng
cs.AI

Abstract

Scalare efficacemente l'automazione delle interfacce grafiche (GUI) è fondamentale per gli agenti di utilizzo del computer (CUA); tuttavia, il lavoro esistente si concentra principalmente sullo scaling del grounding delle GUI piuttosto che sulla più cruciale pianificazione delle GUI, che richiede una raccolta dati più sofisticata. In realtà, il processo di esplorazione di un CUA attraverso app/desktop/pagina web segue tipicamente una struttura ad albero, con i punti di ingresso funzionali più precoci che vengono spesso esplorati più frequentemente. Pertanto, organizzare traiettorie su larga scala in strutture ad albero può ridurre il costo dei dati e semplificare lo scaling dei dati per la pianificazione delle GUI. In questo lavoro, proponiamo TreeCUA per scalare efficientemente l'automazione delle GUI con un'evoluzione verificabile a struttura ad albero. Proponiamo un framework collaborativo multi-agente per esplorare l'ambiente, verificare le azioni, riassumere le traiettorie e valutare la qualità per generare traiettorie GUI di alta qualità e scalabili. Per migliorare l'efficienza, ideiamo una nuova topologia basata su alberi per memorizzare e rieseguire i nodi di esplorazione duplicati e progettiamo un algoritmo di esplorazione adattivo per bilanciare la profondità (cioè la difficoltà della traiettoria) e l'ampiezza (cioè la diversità della traiettoria). Inoltre, sviluppiamo una guida basata sulla conoscenza del mondo e un backtracking della memoria globale per evitare generazioni di bassa qualità. Infine, estendiamo naturalmente e proponiamo il metodo TreeCUA-DPO a partire dalle abbondanti informazioni dei nodi dell'albero, migliorando la capacità di pianificazione delle GUI facendo riferimento alle informazioni dei rami delle traiettorie adiacenti. I risultati sperimentali mostrano che TreeCUA e TreeCUA-DPO offrono miglioramenti significativi e studi fuori dominio (OOD) dimostrano ulteriormente una forte generalizzazione. Tutte le informazioni sui nodi delle traiettorie e il codice saranno disponibili su https://github.com/UITron-hub/TreeCUA.
English
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
PDF62March 19, 2026