GUI-CIDER: Agentes GUI de entrenamiento intermedio mediante internalización causal y reselección de ejemplares consciente de la densidad

Resumen

A pesar del rápido progreso de los modelos de lenguaje grandes multimodales en la construcción de agentes para Interfaces Gráficas de Usuario (GUI), su capacidad para completar tareas en entornos reales se ve fundamentalmente limitada por la falta de conocimiento del mundo sobre las operaciones GUI. Las soluciones existentes generalmente dependen de costosos andamiajes multiagente o paradigmas convencionales de post-entrenamiento, como el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL). Sin embargo, el post-entrenamiento solo permite que los agentes absorban conocimiento del mundo de manera implícita a través de anotaciones de acciones o señales de recompensa, lo que conduce a una memorización ineficiente de trayectorias en lugar de una comprensión genuina. Por lo tanto, es imperativo un enfoque que permita el aprendizaje explícito de este conocimiento. Con este fin, proponemos GUI-CIDER, un método de entrenamiento intermedio que internaliza explícitamente el conocimiento del mundo GUI mediante Internalización Causal y Reselección de Ejemplares con Conciencia de Densidad. GUI-CIDER opera en tres etapas: (1) síntesis de datos, que destila el conocimiento de planificación estática y causal dinámica a partir de trayectorias GUI en texto; (2) reselección de ejemplares, que filtra el corpus recompensando estructuras causales y penalizando la redundancia semántica; y (3) entrenamiento intermedio, donde los datos refinados se utilizan para incrustar el conocimiento adquirido. Experimentos exhaustivos en dos benchmarks de conocimiento GUI y tres benchmarks de finalización de tareas demuestran que GUI-CIDER mejora consistentemente tanto la comprensión del agente sobre las operaciones GUI como sus tasas de éxito en tareas. Los códigos están disponibles en https://github.com/Wuzheng02/GUI-CIDER.

English

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.