Superando a Barreira dos Dados -- Construindo Agentes de Interface Gráfica por meio de Generalização de Tarefas
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Autores: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Resumo
Agentes de Interface Gráfica do Usuário (GUI) oferecem soluções multiplataforma para a automação de tarefas digitais complexas, com potencial significativo para transformar fluxos de trabalho de produtividade. No entanto, seu desempenho é frequentemente limitado pela escassez de dados de trajetória de alta qualidade. Para superar essa limitação, propomos treinar Modelos de Linguagem Visual (VLMs) em tarefas ricas em dados e intensivas em raciocínio durante uma etapa dedicada de treinamento intermediário, e então examinamos como a incorporação dessas tarefas facilita a generalização para cenários de planejamento em GUI. Especificamente, exploramos uma variedade de tarefas com dados de ajuste de instrução prontamente disponíveis, incluindo percepção de GUI, raciocínio multimodal e raciocínio textual. Por meio de extensos experimentos em 11 tarefas de treinamento intermediário, demonstramos que: (1) A generalização de tarefas se mostra altamente eficaz, resultando em melhorias substanciais na maioria dos cenários. Por exemplo, o raciocínio matemático multimodal melhora o desempenho no AndroidWorld em 6,3% absoluto. Notavelmente, dados matemáticos apenas em texto impulsionam significativamente o desempenho de agentes GUI na web, alcançando uma melhoria de 5,6% no WebArena e 5,4% no AndroidWorld, destacando uma notável generalização multimodal de domínios textuais para visuais; (2) Contrariamente a suposições anteriores, os dados de percepção de GUI - anteriormente considerados alinhados de perto com tarefas de agentes GUI e amplamente utilizados para treinamento - têm um impacto comparativamente limitado no desempenho final; (3) Com base nessas descobertas, identificamos as tarefas de treinamento intermediário mais eficazes e criamos conjuntos de dados mistos otimizados, resultando em ganhos absolutos de desempenho de 8,0% no WebArena e 12,2% no AndroidWorld. Nosso trabalho fornece insights valiosos sobre a transferência de conhecimento entre domínios para agentes GUI e oferece uma abordagem prática para enfrentar os desafios de escassez de dados nesse campo emergente. O código, dados e modelos estarão disponíveis em https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary