Rompiendo la Barrera de los Datos -- Construyendo Agentes de Interfaz Gráfica mediante la Generalización de Tareas
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
April 14, 2025
Autores: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
cs.AI
Resumen
Los agentes de Interfaz Gráfica de Usuario (GUI) ofrecen soluciones multiplataforma para automatizar tareas digitales complejas, con un potencial significativo para transformar los flujos de trabajo de productividad. Sin embargo, su rendimiento suele verse limitado por la escasez de datos de trayectoria de alta calidad. Para abordar esta limitación, proponemos entrenar Modelos de Lenguaje Visual (VLMs) en tareas ricas en datos e intensivas en razonamiento durante una etapa intermedia de entrenamiento dedicada, y luego examinamos cómo la incorporación de estas tareas facilita la generalización a escenarios de planificación de GUI. Específicamente, exploramos una variedad de tareas con datos de ajuste de instrucciones fácilmente disponibles, incluyendo percepción de GUI, razonamiento multimodal y razonamiento textual. A través de extensos experimentos en 11 tareas de entrenamiento intermedio, demostramos que: (1) La generalización de tareas resulta altamente efectiva, obteniendo mejoras sustanciales en la mayoría de los escenarios. Por ejemplo, el razonamiento matemático multimodal mejora el rendimiento en AndroidWorld en un 6.3% absoluto. Notablemente, los datos matemáticos basados únicamente en texto mejoran significativamente el rendimiento de los agentes web de GUI, logrando una mejora del 5.6% en WebArena y del 5.4% en AndroidWorld, destacando una notable generalización multimodal desde dominios basados en texto hacia dominios visuales; (2) Contrario a suposiciones previas, los datos de percepción de GUI - anteriormente considerados estrechamente alineados con las tareas de los agentes de GUI y ampliamente utilizados para el entrenamiento - tienen un impacto comparativamente limitado en el rendimiento final; (3) Basándonos en estas observaciones, identificamos las tareas de entrenamiento intermedio más efectivas y seleccionamos conjuntos de datos mixtos optimizados, resultando en mejoras absolutas de rendimiento del 8.0% en WebArena y del 12.2% en AndroidWorld. Nuestro trabajo proporciona valiosas ideas sobre la transferencia de conocimiento entre dominios para agentes de GUI y ofrece un enfoque práctico para abordar los desafíos de escasez de datos en este campo emergente. El código, los datos y los modelos estarán disponibles en https://github.com/hkust-nlp/GUIMid.
English
Graphical User Interface (GUI) agents offer cross-platform solutions for
automating complex digital tasks, with significant potential to transform
productivity workflows. However, their performance is often constrained by the
scarcity of high-quality trajectory data. To address this limitation, we
propose training Vision Language Models (VLMs) on data-rich,
reasoning-intensive tasks during a dedicated mid-training stage, and then
examine how incorporating these tasks facilitates generalization to GUI
planning scenarios. Specifically, we explore a range of tasks with readily
available instruction-tuning data, including GUI perception, multimodal
reasoning, and textual reasoning. Through extensive experiments across 11
mid-training tasks, we demonstrate that: (1) Task generalization proves highly
effective, yielding substantial improvements across most settings. For
instance, multimodal mathematical reasoning enhances performance on
AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data
significantly boosts GUI web agent performance, achieving a 5.6% improvement on
WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal
generalization from text-based to visual domains; (2) Contrary to prior
assumptions, GUI perception data - previously considered closely aligned with
GUI agent tasks and widely utilized for training - has a comparatively limited
impact on final performance; (3) Building on these insights, we identify the
most effective mid-training tasks and curate optimized mixture datasets,
resulting in absolute performance gains of 8.0% on WebArena and 12.2% on
AndroidWorld. Our work provides valuable insights into cross-domain knowledge
transfer for GUI agents and offers a practical approach to addressing data
scarcity challenges in this emerging field. The code, data and models will be
available at https://github.com/hkust-nlp/GUIMid.Summary
AI-Generated Summary