AutoGUI-v2: Um Benchmark Abrangente para Compreensão de Funcionalidades de Interface Gráfica Multimodal
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark
April 27, 2026
Autores: Hongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang
cs.AI
Resumo
Agentes autónomos capazes de navegar em Interfaces Gráficas de Utilizador (IGUs) detêm o potencial para revolucionar a produtividade digital. No entanto, alcançar uma verdadeira autonomia digital vai além da correspondência reativa de elementos; exige um modelo mental preditivo da dinâmica da interface e a capacidade de prever o "estado do mundo digital" resultante das interações. Apesar das capacidades percetuais dos modernos Modelos de Visão e Linguagem (MVLs), os benchmarks existentes permanecem bifurcados (concentrando-se na conclusão de tarefas em caixa preta ou na fundamentação estática e superficial), falhando assim em avaliar se os agentes compreendem verdadeiramente a funcionalidade implícita e a lógica de transição das IGUs. Para colmatar esta lacuna, introduzimos o AutoGUI-v2, um benchmark abrangente concebido para avaliar a compreensão profunda da funcionalidade da IGU e a previsão de resultados de interação. Construímos o benchmark utilizando um novo pipeline colaborativo MVL-humano que analisa recursivamente capturas de ecrã multi-plataforma em regiões funcionais hierárquicas para gerar tarefas de avaliação diversificadas. Fornecendo 2.753 tarefas em seis sistemas operativos, o AutoGUI-v2 testa rigorosamente os agentes em semântica a nível de região e elemento, fundamentação e previsão de estado dinâmico. A nossa avaliação revela uma dicotomia marcante nos MVLs: enquanto os modelos de código aberto afinados com dados de agentes (por exemplo, Qwen3-VL) se destacam na fundamentação funcional, os modelos comerciais (por exemplo, Gemini-2.5-Pro-Thinking) dominam na descrição de funcionalidades. Crucialmente, todos os modelos lutam com a lógica de interação complexa de ações pouco comuns, destacando que a compreensão funcional profunda permanece um obstáculo significativo. Ao medir sistematicamente estas capacidades fundamentais, o AutoGUI-v2 oferece uma nova perspetiva para avançar a próxima geração de agentes de IGU.
English
Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.