Преодоление барьера данных — создание агентов с графическим интерфейсом через обобщение задач
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Авторы: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Аннотация
Агенты с графическим пользовательским интерфейсом (GUI) предлагают кросс-платформенные решения для автоматизации сложных цифровых задач, обладая значительным потенциалом для преобразования рабочих процессов и повышения производительности. Однако их производительность часто ограничивается недостатком высококачественных данных о траекториях. Чтобы устранить это ограничение, мы предлагаем обучать модели, объединяющие зрение и язык (Vision Language Models, VLMs), на задачах, насыщенных данными и требующих интенсивного логического мышления, в рамках специального промежуточного этапа обучения, а затем исследовать, как включение этих задач способствует обобщению для сценариев планирования в GUI. В частности, мы изучаем ряд задач с доступными данными для настройки инструкций, включая восприятие GUI, мультимодальное логическое мышление и текстовое рассуждение. В ходе масштабных экспериментов с 11 промежуточными задачами обучения мы демонстрируем, что: (1) Обобщение задач оказывается высокоэффективным, приводя к значительным улучшениям в большинстве случаев. Например, мультимодальное математическое рассуждение повышает производительность на AndroidWorld на абсолютные 6,3%. Примечательно, что текстовые математические данные значительно улучшают производительность веб-агентов GUI, достигая улучшения на 5,6% на WebArena и 5,4% на AndroidWorld, что подчеркивает заметное кросс-модальное обобщение от текстовых к визуальным доменам; (2) Вопреки предыдущим предположениям, данные о восприятии GUI, которые ранее считались тесно связанными с задачами GUI-агентов и широко использовались для обучения, оказывают сравнительно ограниченное влияние на итоговую производительность; (3) Опираясь на эти выводы, мы определяем наиболее эффективные промежуточные задачи обучения и создаем оптимизированные наборы данных, что приводит к абсолютному улучшению производительности на 8,0% на WebArena и 12,2% на AndroidWorld. Наша работа предоставляет ценные инсайты о кросс-доменном переносе знаний для GUI-агентов и предлагает практический подход к решению проблем нехватки данных в этой развивающейся области. Код, данные и модели будут доступны по адресу https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary