Het doorbreken van de databarrière -- Het bouwen van GUI-agents via taakgeneralisatie
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Auteurs: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Samenvatting
Graphical User Interface (GUI)-agents bieden platformoverschrijdende oplossingen voor het automatiseren van complexe digitale taken, met aanzienlijk potentieel om productiviteitsworkflows te transformeren. Hun prestaties worden echter vaak beperkt door het gebrek aan hoogwaardige trajectgegevens. Om deze beperking aan te pakken, stellen we voor om Vision Language Models (VLMs) te trainen op datarijke, redeneerintensieve taken tijdens een specifieke mid-training fase, en vervolgens te onderzoeken hoe het opnemen van deze taken generalisatie naar GUI-planningsscenario's vergemakkelijkt. Specifiek verkennen we een reeks taken met direct beschikbare instructieafstemmingsgegevens, waaronder GUI-perceptie, multimodale redenering en tekstuele redenering. Door uitgebreide experimenten over 11 mid-training taken tonen we aan dat: (1) Taakgeneralisatie zeer effectief blijkt, wat aanzienlijke verbeteringen oplevert in de meeste situaties. Multimodale wiskundige redenering verbetert bijvoorbeeld de prestaties op AndroidWorld met een absolute 6,3%. Opmerkelijk is dat tekstuele wiskundige gegevens de prestaties van GUI-webagents aanzienlijk verbeteren, met een verbetering van 5,6% op WebArena en 5,4% op AndroidWorld, wat opmerkelijke cross-modale generalisatie van tekstuele naar visuele domeinen onderstreept; (2) In tegenstelling tot eerdere aannames hebben GUI-perceptiegegevens - voorheen beschouwd als nauw verwant aan GUI-agenttaken en veel gebruikt voor training - een relatief beperkte impact op de uiteindelijke prestaties; (3) Op basis van deze inzichten identificeren we de meest effectieve mid-training taken en stellen we geoptimaliseerde mengdatasets samen, wat resulteert in absolute prestatieverbeteringen van 8,0% op WebArena en 12,2% op AndroidWorld. Ons werk biedt waardevolle inzichten in cross-domein kennisoverdracht voor GUI-agents en biedt een praktische aanpak om uitdagingen op het gebied van dataschaarste in dit opkomende veld aan te pakken. De code, gegevens en modellen zijn beschikbaar op https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary