AutoGUI-v2: Un Punto de Referencia Integral para la Comprensión de Funcionalidades GUI Multimodal
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark
April 27, 2026
Autores: Hongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang
cs.AI
Resumen
Los agentes autónomos capaces de navegar Interfaces Gráficas de Usuario (GUI) tienen el potencial de revolucionar la productividad digital. Sin embargo, lograr una verdadera autonomía digital va más allá de la correspondencia reactiva de elementos; requiere un modelo mental predictivo de la dinámica de la interfaz y la capacidad de prever el "estado del mundo digital" resultante de las interacciones. A pesar de las capacidades perceptivas de los Modelos de Visión y Lenguaje (VLM) modernos, los puntos de referencia existentes permanecen bifurcados (centrándose ya sea en la finalización de tareas de caja negra o en una fundamentación estática y superficial), fallando así en evaluar si los agentes comprenden verdaderamente la funcionalidad implícita y la lógica de transición de las GUI. Para cerrar esta brecha, presentamos AutoGUI-v2, un punto de referencia integral diseñado para evaluar la comprensión profunda de la funcionalidad de la GUI y la predicción de resultados de interacción. Construimos el punto de referencia utilizando una novedosa canalización colaborativa VLM-humano que analiza recursivamente capturas de pantalla multiplataforma en regiones funcionales jerárquicas para generar diversas tareas de evaluación. Al proporcionar 2.753 tareas en seis sistemas operativos, AutoGUI-v2 evalúa rigurosamente a los agentes en semántica a nivel de región y elemento, fundamentación y predicción de estados dinámicos. Nuestra evaluación revela una dicotomía sorprendente en los VLMs: mientras que los modelos de código abierto ajustados en datos de agentes (por ejemplo, Qwen3-VL) sobresalen en la fundamentación funcional, los modelos comerciales (por ejemplo, Gemini-2.5-Pro-Thinking) dominan en la descripción de funcionalidades. Crucialmente, todos los modelos luchan con la lógica de interacción compleja de acciones poco comunes, destacando que la comprensión funcional profunda sigue siendo un obstáculo significativo. Al medir sistemáticamente estas capacidades fundamentales, AutoGUI-v2 ofrece una nueva perspectiva para avanzar en la próxima generación de agentes de GUI.
English
Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.