TreeCUA: Effiziente Skalierung von GUI-Automatisierung mit baumstrukturierter verifizierbarer Evolution

papers.abstract

Eine effektive Skalierung der GUI-Automatisierung ist für Computer-Use-Agents (CUAs) entscheidend; bestehende Arbeiten konzentrieren sich jedoch primär auf die Skalierung des GUI-Groundings und nicht auf die wichtigere GUI-Planung, die anspruchsvollere Datensammlung erfordert. In der Realität folgt der Explorationsprozess eines CUAs über Apps/Desktops/Webseiten typischerweise einer Baumstruktur, wobei frühere funktionale Einstiegspunkte häufig häufiger erkundet werden. Daher kann die Organisation groß angelegter Trajektorien in Baumstrukturen die Datenkosten senken und die Datenskalierung der GUI-Planung optimieren. In dieser Arbeit schlagen wir TreeCUA vor, um die GUI-Automatisierung effizient mit baumstrukturierter verifizierbarer Evolution zu skalieren. Wir schlagen ein Multi-Agenten-Kollaborationsframework vor, um die Umgebung zu erkunden, Aktionen zu verifizieren, Trajektorien zusammenzufassen und die Qualität zu bewerten, um hochwertige und skalierbare GUI-Trajektorien zu generieren. Um die Effizienz zu steigern, entwickeln wir eine neuartige baumbasierte Topologie zur Speicherung und Wiedergabe duplizierter Explorationsknoten und entwerfen einen adaptiven Explorationsalgorithmus, um Tiefe (d.h. Schwierigkeit der Trajektorie) und Breite (d.h. Diversität der Trajektorie) auszugleichen. Darüber hinaus entwickeln wir Weltwissensführung und globales Memory-Backtracking, um qualitativ minderwertige Generierung zu vermeiden. Schließlich erweitern wir TreeCUA natürlich und schlagen die TreeCUA-DPO-Methode auf Basis umfangreicher Baumknoteninformationen vor, die die GUI-Planungsfähigkeit verbessert, indem sie auf Verzweigungsinformationen benachbarter Trajektorien zurückgreift. Experimentelle Ergebnisse zeigen, dass TreeCUA und TreeCUA-DPO signifikante Verbesserungen bieten, und Out-of-Domain (OOD)-Studien demonstrieren zudem eine starke Generalisierungsfähigkeit. Alle Trajektorienknoteninformationen und der Code werden unter https://github.com/UITron-hub/TreeCUA verfügbar sein.

English

Effectively scaling GUI automation is essential for computer-use agents (CUAs); however, existing work primarily focuses on scaling GUI grounding rather than the more crucial GUI planning, which requires more sophisticated data collection. In reality, the exploration process of a CUA across apps/desktops/web pages typically follows a tree structure, with earlier functional entry points often being explored more frequently. Thus, organizing large-scale trajectories into tree structures can reduce data cost and streamline the data scaling of GUI planning. In this work, we propose TreeCUA to efficiently scale GUI automation with tree-structured verifiable evolution. We propose a multi-agent collaborative framework to explore the environment, verify actions, summarize trajectories, and evaluate quality to generate high-quality and scalable GUI trajectories. To improve efficiency, we devise a novel tree-based topology to store and replay duplicate exploration nodes, and design an adaptive exploration algorithm to balance the depth (i.e., trajectory difficulty) and breadth (i.e., trajectory diversity). Moreover, we develop world knowledge guidance and global memory backtracking to avoid low-quality generation. Finally, we naturally extend and propose the TreeCUA-DPO method from abundant tree node information, improving GUI planning capability by referring to the branch information of adjacent trajectories. Experimental results show that TreeCUA and TreeCUA-DPO offer significant improvements, and out-of-domain (OOD) studies further demonstrate strong generalization. All trajectory node information and code will be available at https://github.com/UITron-hub/TreeCUA.

TreeCUA: Effiziente Skalierung von GUI-Automatisierung mit baumstrukturierter verifizierbarer Evolution

TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution

papers.abstract

Support