GUI-CIDER: Mid-Training von GUI-Agenten durch kausale Internalisierung und dichtebewusste Exemplar-Neuauswahl

Zusammenfassung

Trotz der rasanten Fortschritte multimodaler großer Sprachmodelle bei der Entwicklung von Agenten für grafische Benutzeroberflächen (GUI) wird deren Fähigkeit zur Bewältigung realer Aufgaben grundlegend durch einen Mangel an Weltwissen über GUI-Operationen eingeschränkt. Bestehende Lösungen stützen sich typischerweise auf teures Multi-Agenten-Scaffolding oder konventionelle Nachtrainingsparadigmen wie überwachtes Feintuning (SFT) und Verstärkungslernen (RL). Nachtraining ermöglicht es Agenten jedoch nur, Weltwissen implizit durch Handlungsannotationen oder Belohnungssignale aufzunehmen, was zu ineffizientem Auswendiglernen von Trajektorien anstatt zu echtem Verständnis führt. Daher ist ein Ansatz, der explizites Lernen dieses Wissens ermöglicht, unerlässlich. Zu diesem Zweck schlagen wir GUI-CIDER vor, eine Mid-Training-Methode, die GUI-Weltwissen durch kausale Internalisierung und dichtebewusste Exemplar-Neuauswahl explizit verinnerlicht. GUI-CIDER arbeitet in drei Phasen: (1) Datensynthese, die statische Planungs- und dynamische Kausalwissen aus GUI-Trajektorien in Text destilliert; (2) Exemplar-Neuauswahl, die den Korpus durch Belohnung kausaler Strukturen und Bestrafung semantischer Redundanz filtert; und (3) Mid-Training, bei dem die verfeinerten Daten genutzt werden, um das erworbene Wissen einzubetten. Umfangreiche Experimente mit zwei GUI-Wissens-Benchmarks und drei Aufgabenabschluss-Benchmarks zeigen, dass GUI-CIDER sowohl das Verständnis des Agenten für GUI-Operationen als auch dessen Aufgabenerfolgsraten konsistent verbessert. Die Codes sind verfügbar unter https://github.com/Wuzheng02/GUI-CIDER.

English

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.