GUI-CIDER : Entraînement intermédiaire d'agents GUI par internalisation causale et resélection d'exemplaires sensible à la densité

Résumé

Malgré les progrès rapides des grands modèles de langage multimodaux dans la construction d'agents d'interface utilisateur graphique (GUI), leur capacité à accomplir des tâches dans le monde réel est fondamentalement limitée par un manque de connaissances du monde concernant les opérations GUI. Les solutions existantes reposent généralement sur des architectures multi-agents coûteuses ou des paradigmes de post-entraînement conventionnels, tels que le Supervised Fine-Tuning (SFT) et l'apprentissage par renforcement (RL). Cependant, le post-entraînement ne permet aux agents d'absorber implicitement les connaissances du monde qu'à travers des annotations d'actions ou des signaux de récompense, ce qui conduit à une mémorisation inefficace des trajectoires plutôt qu'à une compréhension réelle. Par conséquent, une approche permettant un apprentissage explicite de ces connaissances est impérative. À cette fin, nous proposons GUI-CIDER, une méthode d'entraînement intermédiaire qui internalise explicitement les connaissances du monde GUI par internalisation causale et réévaluation dense d'exemples exemplaires. GUI-CIDER fonctionne en trois étapes : (1) synthèse de données, qui distille la planification statique et les connaissances causales dynamiques à partir de trajectoires GUI en texte ; (2) réévaluation d'exemples exemplaires, qui filtre le corpus en récompensant les structures causales et en pénalisant la redondance sémantique ; et (3) entraînement intermédiaire, où les données affinées sont utilisées pour intégrer les connaissances acquises. Des expériences approfondies sur deux benchmarks de connaissances GUI et trois benchmarks d'accomplissement de tâches démontrent que GUI-CIDER améliore constamment à la fois la compréhension des opérations GUI par l'agent et ses taux de réussite de tâches. Les codes sont disponibles à l'adresse https://github.com/Wuzheng02/GUI-CIDER.

English

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.