ChatPaper.aiChatPaper

Het doorbreken van de databarrière -- Het bouwen van GUI-agents via taakgeneralisatie

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

April 14, 2025
Auteurs: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI

Samenvatting

Graphical User Interface (GUI)-agents bieden platformoverschrijdende oplossingen voor het automatiseren van complexe digitale taken, met aanzienlijk potentieel om productiviteitsworkflows te transformeren. Hun prestaties worden echter vaak beperkt door het gebrek aan hoogwaardige trajectgegevens. Om deze beperking aan te pakken, stellen we voor om Vision Language Models (VLMs) te trainen op datarijke, redeneerintensieve taken tijdens een specifieke mid-training fase, en vervolgens te onderzoeken hoe het opnemen van deze taken generalisatie naar GUI-planningsscenario's vergemakkelijkt. Specifiek verkennen we een reeks taken met direct beschikbare instructieafstemmingsgegevens, waaronder GUI-perceptie, multimodale redenering en tekstuele redenering. Door uitgebreide experimenten over 11 mid-training taken tonen we aan dat: (1) Taakgeneralisatie zeer effectief blijkt, wat aanzienlijke verbeteringen oplevert in de meeste situaties. Multimodale wiskundige redenering verbetert bijvoorbeeld de prestaties op AndroidWorld met een absolute 6,3%. Opmerkelijk is dat tekstuele wiskundige gegevens de prestaties van GUI-webagents aanzienlijk verbeteren, met een verbetering van 5,6% op WebArena en 5,4% op AndroidWorld, wat opmerkelijke cross-modale generalisatie van tekstuele naar visuele domeinen onderstreept; (2) In tegenstelling tot eerdere aannames hebben GUI-perceptiegegevens - voorheen beschouwd als nauw verwant aan GUI-agenttaken en veel gebruikt voor training - een relatief beperkte impact op de uiteindelijke prestaties; (3) Op basis van deze inzichten identificeren we de meest effectieve mid-training taken en stellen we geoptimaliseerde mengdatasets samen, wat resulteert in absolute prestatieverbeteringen van 8,0% op WebArena en 12,2% op AndroidWorld. Ons werk biedt waardevolle inzichten in cross-domein kennisoverdracht voor GUI-agents en biedt een praktische aanpak om uitdagingen op het gebied van dataschaarste in dit opkomende veld aan te pakken. De code, gegevens en modellen zijn beschikbaar op https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Summary

AI-Generated Summary

PDF172April 15, 2025