Rompiendo la Barrera de los Datos -- Construyendo Agentes de Interfaz Gráfica mediante la Generalización de Tareas

Resumen

Los agentes de Interfaz Gráfica de Usuario (GUI) ofrecen soluciones multiplataforma para automatizar tareas digitales complejas, con un potencial significativo para transformar los flujos de trabajo de productividad. Sin embargo, su rendimiento suele verse limitado por la escasez de datos de trayectoria de alta calidad. Para abordar esta limitación, proponemos entrenar Modelos de Lenguaje Visual (VLMs) en tareas ricas en datos e intensivas en razonamiento durante una etapa intermedia de entrenamiento dedicada, y luego examinamos cómo la incorporación de estas tareas facilita la generalización a escenarios de planificación de GUI. Específicamente, exploramos una variedad de tareas con datos de ajuste de instrucciones fácilmente disponibles, incluyendo percepción de GUI, razonamiento multimodal y razonamiento textual. A través de extensos experimentos en 11 tareas de entrenamiento intermedio, demostramos que: (1) La generalización de tareas resulta altamente efectiva, obteniendo mejoras sustanciales en la mayoría de los escenarios. Por ejemplo, el razonamiento matemático multimodal mejora el rendimiento en AndroidWorld en un 6.3% absoluto. Notablemente, los datos matemáticos basados únicamente en texto mejoran significativamente el rendimiento de los agentes web de GUI, logrando una mejora del 5.6% en WebArena y del 5.4% en AndroidWorld, destacando una notable generalización multimodal desde dominios basados en texto hacia dominios visuales; (2) Contrario a suposiciones previas, los datos de percepción de GUI - anteriormente considerados estrechamente alineados con las tareas de los agentes de GUI y ampliamente utilizados para el entrenamiento - tienen un impacto comparativamente limitado en el rendimiento final; (3) Basándonos en estas observaciones, identificamos las tareas de entrenamiento intermedio más efectivas y seleccionamos conjuntos de datos mixtos optimizados, resultando en mejoras absolutas de rendimiento del 8.0% en WebArena y del 12.2% en AndroidWorld. Nuestro trabajo proporciona valiosas ideas sobre la transferencia de conocimiento entre dominios para agentes de GUI y ofrece un enfoque práctico para abordar los desafíos de escasez de datos en este campo emergente. El código, los datos y los modelos estarán disponibles en https://github.com/hkust-nlp/GUIMid.

English

Graphical User Interface (GUI) agents offer cross-platform solutions for automating complex digital tasks, with significant potential to transform productivity workflows. However, their performance is often constrained by the scarcity of high-quality trajectory data. To address this limitation, we propose training Vision Language Models (VLMs) on data-rich, reasoning-intensive tasks during a dedicated mid-training stage, and then examine how incorporating these tasks facilitates generalization to GUI planning scenarios. Specifically, we explore a range of tasks with readily available instruction-tuning data, including GUI perception, multimodal reasoning, and textual reasoning. Through extensive experiments across 11 mid-training tasks, we demonstrate that: (1) Task generalization proves highly effective, yielding substantial improvements across most settings. For instance, multimodal mathematical reasoning enhances performance on AndroidWorld by an absolute 6.3%. Remarkably, text-only mathematical data significantly boosts GUI web agent performance, achieving a 5.6% improvement on WebArena and 5.4% improvement on AndroidWorld, underscoring notable cross-modal generalization from text-based to visual domains; (2) Contrary to prior assumptions, GUI perception data - previously considered closely aligned with GUI agent tasks and widely utilized for training - has a comparatively limited impact on final performance; (3) Building on these insights, we identify the most effective mid-training tasks and curate optimized mixture datasets, resulting in absolute performance gains of 8.0% on WebArena and 12.2% on AndroidWorld. Our work provides valuable insights into cross-domain knowledge transfer for GUI agents and offers a practical approach to addressing data scarcity challenges in this emerging field. The code, data and models will be available at https://github.com/hkust-nlp/GUIMid.

Rompiendo la Barrera de los Datos -- Construyendo Agentes de Interfaz Gráfica mediante la Generalización de Tareas

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Resumen

Support