Überwindung der Datenbarriere – Entwicklung von GUI-Agenten durch Aufgabenverallgemeinerung
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Autoren: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Zusammenfassung
Graphical User Interface (GUI)-Agenten bieten plattformübergreifende Lösungen zur Automatisierung komplexer digitaler Aufgaben und haben ein erhebliches Potenzial, Produktivitätsabläufe zu transformieren. Ihre Leistung wird jedoch oft durch den Mangel an hochwertigen Trajektoriedaten eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir vor, Vision Language Models (VLMs) in einer speziellen Zwischentrainingsphase auf datenintensive, reasoning-intensive Aufgaben zu trainieren und anschließend zu untersuchen, wie die Einbindung dieser Aufgaben die Generalisierung auf GUI-Planungsszenarien fördert. Konkret untersuchen wir eine Reihe von Aufgaben mit leicht verfügbaren Instruction-Tuning-Daten, darunter GUI-Wahrnehmung, multimodales Reasoning und textbasiertes Reasoning. Durch umfangreiche Experimente über 11 Zwischentrainingsaufgaben zeigen wir: (1) Die Aufgabenverallgemeinerung erweist sich als äußerst effektiv und führt in den meisten Fällen zu erheblichen Verbesserungen. Beispielsweise verbessert multimodales mathematisches Reasoning die Leistung auf AndroidWorld um absolute 6,3 %. Bemerkenswerterweise steigern rein textbasierte mathematische Daten die Leistung von GUI-Webagenten signifikant, mit einer Verbesserung von 5,6 % auf WebArena und 5,4 % auf AndroidWorld, was eine beachtliche cross-modale Generalisierung von textbasierten zu visuellen Domänen unterstreicht; (2) Entgegen früheren Annahmen haben GUI-Wahrnehmungsdaten – die bisher als eng mit GUI-Agentenaufgaben verbunden und weit verbreitet für das Training angesehen wurden – einen vergleichsweise begrenzten Einfluss auf die Endleistung; (3) Basierend auf diesen Erkenntnissen identifizieren wir die effektivsten Zwischentrainingsaufgaben und erstellen optimierte Mischdatensätze, was zu absoluten Leistungssteigerungen von 8,0 % auf WebArena und 12,2 % auf AndroidWorld führt. Unsere Arbeit liefert wertvolle Einblicke in den domänenübergreifenden Wissenstransfer für GUI-Agenten und bietet einen praktischen Ansatz zur Bewältigung von Datenknappheitsproblemen in diesem aufstrebenden Bereich. Der Code, die Daten und Modelle werden unter https://github.com/hkust-nlp/GUIMid verfügbar sein.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary