Franchir la barrière des données -- Construire des agents d'interface graphique par généralisation des tâches

papers.abstract

Les agents d'interface graphique (GUI) offrent des solutions multiplateformes pour automatiser des tâches numériques complexes, avec un potentiel significatif de transformation des flux de travail de productivité. Cependant, leurs performances sont souvent limitées par la rareté des données de trajectoire de haute qualité. Pour pallier cette limitation, nous proposons d'entraîner des modèles de vision et langage (VLMs) sur des tâches riches en données et intensives en raisonnement lors d'une étape d'entraînement intermédiaire dédiée, puis d'examiner comment l'intégration de ces tâches facilite la généralisation aux scénarios de planification GUI. Plus précisément, nous explorons une gamme de tâches avec des données d'ajustement d'instructions facilement disponibles, incluant la perception GUI, le raisonnement multimodal et le raisonnement textuel. À travers des expériences approfondies sur 11 tâches d'entraînement intermédiaire, nous démontrons que : (1) La généralisation des tâches s'avère très efficace, apportant des améliorations substantielles dans la plupart des configurations. Par exemple, le raisonnement mathématique multimodal améliore les performances sur AndroidWorld de 6,3 % en valeur absolue. Fait remarquable, les données mathématiques textuelles seules améliorent significativement les performances des agents GUI web, avec une amélioration de 5,6 % sur WebArena et de 5,4 % sur AndroidWorld, soulignant une généralisation intermodale notable des domaines textuels aux domaines visuels ; (2) Contrairement aux hypothèses précédentes, les données de perception GUI - auparavant considérées comme étroitement alignées avec les tâches des agents GUI et largement utilisées pour l'entraînement - ont un impact relativement limité sur les performances finales ; (3) En nous appuyant sur ces insights, nous identifions les tâches d'entraînement intermédiaire les plus efficaces et constituons des ensembles de données mixtes optimisés, aboutissant à des gains de performance absolus de 8,0 % sur WebArena et de 12,2 % sur AndroidWorld. Notre travail fournit des insights précieux sur le transfert de connaissances interdomaines pour les agents GUI et propose une approche pratique pour relever les défis de la rareté des données dans ce domaine émergent. Le code, les données et les modèles seront disponibles à l'adresse https://github.com/hkust-nlp/GUIMid.

English

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Franchir la barrière des données -- Construire des agents d'interface graphique par généralisation des tâches

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

papers.abstract

Support