AutoGUI-v2 : Un benchmark complet pour la compréhension multimodale des fonctionnalités d'interface graphique

Résumé

Les agents autonomes capables de naviguer dans les interfaces graphiques (GUI) détiennent le potentiel de révolutionner la productivité numérique. Cependant, atteindre une véritable autonomie numérique va au-delà de la simple reconnaissance réactive d'éléments ; elle nécessite un modèle mental prédictif de la dynamique des interfaces et la capacité à anticiper « l'état du monde numérique » résultant des interactions. Malgré les capacités perceptuelles des modèles vision-langage (VLM) modernes, les benchmarks existants restent dichotomiques (se concentrant soit sur l'exécution de tâches en boîte noire, soit sur un ancrage statique et superficiel), échouant ainsi à évaluer si les agents comprennent véritablement la fonctionnalité implicite et la logique transitionnelle des GUI. Pour combler cette lacune, nous présentons AutoGUI-v2, un benchmark complet conçu pour évaluer la compréhension approfondie des fonctionnalités des GUI et la prédiction des résultats d'interaction. Nous avons construit ce benchmark en utilisant un nouveau pipeline collaboratif VLM-humain qui analyse de manière récursive des captures d'écran multi-plateformes en régions fonctionnelles hiérarchiques pour générer des tâches d'évaluation diversifiées. Proposant 2 753 tâches réparties sur six systèmes d'exploitation, AutoGUI-v2 teste rigoureusement les agents sur la sémantique aux niveaux région et élément, l'ancrage et la prédiction d'état dynamique. Notre évaluation révèle une dichotomie frappante parmi les VLMs : tandis que les modèles open source affinés sur des données d'agents (par exemple, Qwen3-VL) excellent dans l'ancrage fonctionnel, les modèles commerciaux (par exemple, Gemini-2.5-Pro-Thinking) dominent dans la description des fonctionnalités. Plus crucial encore, tous les modèles peinent avec la logique d'interaction complexe d'actions peu communes, soulignant que la compréhension fonctionnelle profonde reste un défi majeur. En mesurant systématiquement ces capacités fondamentales, AutoGUI-v2 offre une nouvelle perspective pour faire progresser la prochaine génération d'agents pour interfaces graphiques.

English

Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.

AutoGUI-v2 : Un benchmark complet pour la compréhension multimodale des fonctionnalités d'interface graphique

AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Résumé

Support