Überwindung der Datenbarriere – Entwicklung von GUI-Agenten durch Aufgabenverallgemeinerung

papers.abstract

Graphical User Interface (GUI)-Agenten bieten plattformübergreifende Lösungen zur Automatisierung komplexer digitaler Aufgaben und haben ein erhebliches Potenzial, Produktivitätsabläufe zu transformieren. Ihre Leistung wird jedoch oft durch den Mangel an hochwertigen Trajektoriedaten eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir vor, Vision Language Models (VLMs) in einer speziellen Zwischentrainingsphase auf datenintensive, reasoning-intensive Aufgaben zu trainieren und anschließend zu untersuchen, wie die Einbindung dieser Aufgaben die Generalisierung auf GUI-Planungsszenarien fördert. Konkret untersuchen wir eine Reihe von Aufgaben mit leicht verfügbaren Instruction-Tuning-Daten, darunter GUI-Wahrnehmung, multimodales Reasoning und textbasiertes Reasoning. Durch umfangreiche Experimente über 11 Zwischentrainingsaufgaben zeigen wir: (1) Die Aufgabenverallgemeinerung erweist sich als äußerst effektiv und führt in den meisten Fällen zu erheblichen Verbesserungen. Beispielsweise verbessert multimodales mathematisches Reasoning die Leistung auf AndroidWorld um absolute 6,3 %. Bemerkenswerterweise steigern rein textbasierte mathematische Daten die Leistung von GUI-Webagenten signifikant, mit einer Verbesserung von 5,6 % auf WebArena und 5,4 % auf AndroidWorld, was eine beachtliche cross-modale Generalisierung von textbasierten zu visuellen Domänen unterstreicht; (2) Entgegen früheren Annahmen haben GUI-Wahrnehmungsdaten – die bisher als eng mit GUI-Agentenaufgaben verbunden und weit verbreitet für das Training angesehen wurden – einen vergleichsweise begrenzten Einfluss auf die Endleistung; (3) Basierend auf diesen Erkenntnissen identifizieren wir die effektivsten Zwischentrainingsaufgaben und erstellen optimierte Mischdatensätze, was zu absoluten Leistungssteigerungen von 8,0 % auf WebArena und 12,2 % auf AndroidWorld führt. Unsere Arbeit liefert wertvolle Einblicke in den domänenübergreifenden Wissenstransfer für GUI-Agenten und bietet einen praktischen Ansatz zur Bewältigung von Datenknappheitsproblemen in diesem aufstrebenden Bereich. Der Code, die Daten und Modelle werden unter https://github.com/hkust-nlp/GUIMid verfügbar sein.

English

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Überwindung der Datenbarriere – Entwicklung von GUI-Agenten durch Aufgabenverallgemeinerung

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

papers.abstract

Support