ChatPaper.aiChatPaper

TreeCUA: Escalado Eficiente de la Automatización de Interfaces Gráficas mediante Evolución Verificable con Estructura de Árbol

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

February 10, 2026
Autores: Deyang Jiang, Jing Huang, Xuanle Zhao, Lei Chen, Liming Zheng, Fanfan Liu, Haibo Qiu, Peng Shi, Zhixiong Zeng
cs.AI

Resumen

La escalabilidad efectiva de la automatización de interfaces gráficas de usuario (GUI) es esencial para los agentes de uso informático (CUA); sin embargo, los trabajos existentes se centran principalmente en escalar el anclaje de la GUI en lugar de la planificación de la GUI, que es más crucial y requiere una recolección de datos más sofisticada. En la realidad, el proceso de exploración de un CUA a través de aplicaciones, escritorios o páginas web suele seguir una estructura de árbol, donde los puntos de entrada funcionales más tempranos suelen explorarse con mayor frecuencia. Por lo tanto, organizar las trayectorias a gran escala en estructuras arbóreas puede reducir el costo de datos y agilizar la escalabilidad de datos para la planificación de GUI. En este trabajo, proponemos TreeCUA para escalar eficientemente la automatización de GUI mediante una evolución verificable de estructura arbórea. Proponemos un marco de colaboración multiagente para explorar el entorno, verificar acciones, resumir trayectorias y evaluar la calidad, con el fin de generar trayectorias de GUI escalables y de alta calidad. Para mejorar la eficiencia, diseñamos una topología novedosa basada en árboles para almacenar y reproducir nodos de exploración duplicados, y diseñamos un algoritmo de exploración adaptativa para equilibrar la profundidad (es decir, la dificultad de la trayectoria) y la amplitud (es decir, la diversidad de la trayectoria). Además, desarrollamos una guía de conocimiento del mundo y una retroalimentación de memoria global para evitar generaciones de baja calidad. Finalmente, extendemos de forma natural y proponemos el método TreeCUA-DPO a partir de la abundante información de los nodos del árbol, mejorando la capacidad de planificación de GUI al referirse a la información de ramas de trayectorias adyacentes. Los resultados experimentales muestran que TreeCUA y TreeCUA-DPO ofrecen mejoras significativas, y los estudios fuera de dominio (OOD) demuestran además una fuerte generalización. Toda la información de los nodos de trayectoria y el código estarán disponibles en https://github.com/UITron-hub/TreeCUA.
English
Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.
PDF51February 12, 2026