AutoGUI-v2: Un Benchmark Completo per la Comprensione Multi-Modale delle Funzionalità GUI

Abstract

Gli agenti autonomi in grado di navigare le interfacce grafiche (GUI) possiedono il potenziale per rivoluzionare la produttività digitale. Tuttavia, il raggiungimento di una vera autonomia digitale va oltre la semplice corrispondenza reattiva degli elementi; richiede un modello mentale predittivo delle dinamiche dell'interfaccia e la capacità di prevedere lo "stato del mondo digitale" risultante dalle interazioni. Nonostante le capacità percettive dei moderni Modelli Visione-Linguaggio (VLM), i benchmark esistenti rimangono biforcati (concentrandosi sul completamento di task in ambiente black-box o su un grounding statico e superficiale), fallendo quindi nel valutare se gli agenti comprendano veramente la funzionalità implicita e la logica di transizione delle GUI. Per colmare questa lacuna, introduciamo AutoGUI-v2, un benchmark completo progettato per valutare la comprensione profonda della funzionalità delle GUI e la previsione degli esiti delle interazioni. Abbiamo costruito il benchmark utilizzando una nuova pipeline collaborativa VLM-umano che analizza ricorsivamente screenshot multi-piattaforma per generare regioni funzionali gerarchiche e creare task di valutazione diversificati. Fornendo 2.753 task su sei sistemi operativi, AutoGUI-v2 testa rigorosamente gli agenti sulla semantica a livello di regione ed elemento, sul grounding e sulla previsione degli stati dinamici. La nostra valutazione rivela una netta dicotomia nei VLM: mentre i modelli open-source addestrati su dati agentistici (ad es. Qwen3-VL) eccellono nel grounding funzionale, i modelli commerciali (ad es. Gemini-2.5-Pro-Thinking) dominano nella descrizione delle funzionalità. Crucialmente, tutti i modelli mostrano difficoltà con la logica d'interazione complessa di azioni non comuni, evidenziando che la comprensione funzionale profonda rimane un ostacolo significativo. Misurando sistematicamente queste capacità fondamentali, AutoGUI-v2 offre una nuova lente per far progredire la prossima generazione di agenti per GUI.

English

Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.

AutoGUI-v2: Un Benchmark Completo per la Comprensione Multi-Modale delle Funzionalità GUI

AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Abstract

Support