Franchir la barrière des données -- Construire des agents d'interface graphique par généralisation des tâches
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Auteurs: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Résumé
Les agents d'interface graphique (GUI) offrent des solutions multiplateformes pour automatiser des tâches numériques complexes, avec un potentiel significatif de transformation des flux de travail de productivité. Cependant, leurs performances sont souvent limitées par la rareté des données de trajectoire de haute qualité. Pour pallier cette limitation, nous proposons d'entraîner des modèles de vision et langage (VLMs) sur des tâches riches en données et intensives en raisonnement lors d'une étape d'entraînement intermédiaire dédiée, puis d'examiner comment l'intégration de ces tâches facilite la généralisation aux scénarios de planification GUI. Plus précisément, nous explorons une gamme de tâches avec des données d'ajustement d'instructions facilement disponibles, incluant la perception GUI, le raisonnement multimodal et le raisonnement textuel. À travers des expériences approfondies sur 11 tâches d'entraînement intermédiaire, nous démontrons que : (1) La généralisation des tâches s'avère très efficace, apportant des améliorations substantielles dans la plupart des configurations. Par exemple, le raisonnement mathématique multimodal améliore les performances sur AndroidWorld de 6,3 % en valeur absolue. Fait remarquable, les données mathématiques textuelles seules améliorent significativement les performances des agents GUI web, avec une amélioration de 5,6 % sur WebArena et de 5,4 % sur AndroidWorld, soulignant une généralisation intermodale notable des domaines textuels aux domaines visuels ; (2) Contrairement aux hypothèses précédentes, les données de perception GUI - auparavant considérées comme étroitement alignées avec les tâches des agents GUI et largement utilisées pour l'entraînement - ont un impact relativement limité sur les performances finales ; (3) En nous appuyant sur ces insights, nous identifions les tâches d'entraînement intermédiaire les plus efficaces et constituons des ensembles de données mixtes optimisés, aboutissant à des gains de performance absolus de 8,0 % sur WebArena et de 12,2 % sur AndroidWorld. Notre travail fournit des insights précieux sur le transfert de connaissances interdomaines pour les agents GUI et propose une approche pratique pour relever les défis de la rareté des données dans ce domaine émergent. Le code, les données et les modèles seront disponibles à l'adresse https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary