AutoGUI-v2: Ein umfassender Benchmark für multimodales GUI-Funktionalitätsverständnis

Zusammenfassung

Autonome Agenten, die in der Lage sind, grafische Benutzeroberflächen (GUIs) zu navigieren, haben das Potenzial, die digitale Produktivität zu revolutionieren. Das Erreichen echter digitaler Autonomie geht jedoch über reaktives Element-Matching hinaus; es erfordert ein prädiktives mentales Modell der Schnittstellendynamik und die Fähigkeit, den sich aus Interaktionen ergebenden "digitalen Weltzustand" vorherzusehen. Trotz der Wahrnehmungsfähigkeiten moderner Vision-Language-Models (VLMs) bleiben bestehende Benchmarks gespalten (sie konzentrieren sich entweder auf Blackbox-Aufgabenerfüllung oder statische, oberflächliche Verankerung) und bewerten somit nicht, ob Agenten die implizite Funktionalität und Übergangslogik von GUIs tatsächlich verstehen. Um diese Lücke zu schließen, stellen wir AutoGUI-v2 vor, einen umfassenden Benchmark zur Bewertung des tiefen Funktionalitätsverständnisses von GUIs und der Vorhersage von Interaktionsergebnissen. Wir konstruieren den Benchmark mithilfe einer neuartigen VLM-Mensch-Kollaborationspipeline, die Screenshots von Multi-Plattform-Systemen rekursiv in hierarchische Funktionsregionen zerlegt, um vielfältige Evaluierungsaufgaben zu generieren. Mit 2.753 Aufgaben über sechs Betriebssysteme hinweg testet AutoGUI-v2 Agenten rigoros in Bezug auf Semantik auf Regionen- und Elementebene, Verankerung und dynamische Zustandsvorhersage. Unsere Auswertung zeigt eine auffällige Dichotomie bei VLMs: Während quelloffene Modelle, die auf Agentendaten feinabgestimmt wurden (z.B. Qwen3-VL), bei der funktionalen Verankerung excellieren, dominieren kommerzielle Modelle (z.B. Gemini-2.5-Pro-Thinking) bei der Funktionalitätsbeschreibung. Entscheidend ist, dass alle Modelle mit der komplexen Interaktionslogik unüblicher Aktionen kämpfen, was zeigt, dass tiefes Funktionalitätsverständnis nach wie vor eine erhebliche Hürde darstellt. Durch die systematische Messung dieser grundlegenden Fähigkeiten bietet AutoGUI-v2 eine neue Perspektive für die Weiterentwicklung der nächsten Generation von GUI-Agenten.

English

Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.

AutoGUI-v2: Ein umfassender Benchmark für multimodales GUI-Funktionalitätsverständnis

AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

Zusammenfassung

Support