GUI-CIDER: Промежуточное обучение GUI-агентов с помощью каузальной интернализации и повторного выбора примеров с учетом плотности

Аннотация

Несмотря на стремительный прогресс мультимодальных больших языковых моделей в создании агентов графического пользовательского интерфейса (GUI), выполнение ими реальных задач принципиально ограничено отсутствием знаний о мире в отношении операций GUI. Существующие решения обычно опираются на дорогостоящую многолетнюю структуру или традиционные парадигмы пост-обучения, такие как контролируемая точная настройка (SFT) и обучение с подкреплением (RL). Однако пост-обучение позволяет агентам лишь неявно усваивать знания о мире через аннотации действий или сигналы вознаграждения, что приводит к неэффективному запоминанию траекторий вместо подлинного понимания. Поэтому необходим подход, обеспечивающий явное изучение этих знаний. С этой целью мы предлагаем GUI-CIDER — метод промежуточного обучения, который явно интернализует знания о мире GUI посредством каузальной интернализации и повторного отбора примеров с учетом плотности. GUI-CIDER работает в три этапа: (1) синтез данных, который извлекает из траекторий GUI статическое планирование и динамические каузальные знания в текст; (2) повторный отбор примеров, который фильтрует корпус, вознаграждая каузальные структуры и штрафуя семантическую избыточность; и (3) промежуточное обучение, в ходе которого уточненные данные используются для встраивания приобретенных знаний. Обширные эксперименты на двух эталонных тестах знаний GUI и трех эталонных тестах выполнения задач показывают, что GUI-CIDER последовательно улучшает как понимание агентом операций GUI, так и показатели успешности выполнения задач. Коды доступны по адресу https://github.com/Wuzheng02/GUI-CIDER.

English

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.