GUI-CIDER: Treinamento Intermediário de Agentes GUI via Internalização Causal e Reseleção de Exemplares com Consciência de Densidade

Resumo

Apesar do rápido progresso dos modelos multimodais de linguagem de grande escala na construção de agentes de Interface Gráfica do Usuário (GUI), sua conclusão de tarefas no mundo real é fundamentalmente limitada pela falta de conhecimento mundial sobre operações de GUI. Soluções existentes geralmente dependem de caríssimas arquiteturas multiagentes ou paradigmas convencionais de pós-treinamento, como Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL). No entanto, o pós-treinamento apenas permite que os agentes absorvam conhecimento mundial implicitamente por meio de anotações de ações ou sinais de recompensa, resultando em memorização ineficiente de trajetórias, em vez de compreensão genuína. Portanto, é imperativa uma abordagem que possibilite o aprendizado explícito desse conhecimento. Para esse fim, propomos o GUI-CIDER, um método de treinamento intermediário que internaliza explicitamente o conhecimento mundial de GUI por meio de Internalização Causal e Re-seleção de Exemplos Sensível à Densidade. O GUI-CIDER opera em três estágios: (1) síntese de dados, que destila conhecimento estático de planejamento e conhecimento causal dinâmico de trajetórias de GUI em texto; (2) re-seleção de exemplos, que filtra o corpus recompensando estruturas causais e penalizando redundância semântica; e (3) treinamento intermediário, onde os dados refinados são usados para incorporar o conhecimento adquirido. Experimentos extensivos em dois benchmarks de conhecimento de GUI e três benchmarks de conclusão de tarefas demonstram que o GUI-CIDER melhora consistentemente tanto a compreensão do agente sobre operações de GUI quanto suas taxas de sucesso em tarefas. Os códigos estão disponíveis em https://github.com/Wuzheng02/GUI-CIDER.

English

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.