AutoGUI-v2: Комплексный бенчмарк для анализа функциональности графического интерфейса с поддержкой мультимодальности
AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark
April 27, 2026
Авторы: Hongxin Li, Xiping Wang, Jingran Su, Zheng Ju, Yuntao Chen, Qing Li, Zhaoxiang Zhang
cs.AI
Аннотация
Автономные агенты, способные ориентироваться в графических пользовательских интерфейсах (GUI), обладают потенциалом для революционного повышения цифровой производительности. Однако достижение подлинной цифровой автономии выходит за рамки реактивного сопоставления элементов; оно требует наличия прогнозирующей ментальной модели динамики интерфейса и способности предвидеть «состояние цифрового мира», возникающее в результате взаимодействий. Несмотря на перцепционные возможности современных Vision-Language Models (VLM), существующие бенчмарки остаются раздробленными (фокусируясь либо на выполнении задач в условиях «черного ящика», либо на статичном, поверхностном заземлении), тем самым не оценивая, действительно ли агенты понимают неявную функциональность и логику переходов в GUI. Чтобы заполнить этот пробел, мы представляем AutoGUI-v2 — комплексный бенчмарк, разработанный для оценки глубокого понимания функциональности GUI и прогнозирования результатов взаимодействия. Мы создали бенчмарк с помощью нового конвейера совместной работы VLM и человека, который рекурсивно преобразует скриншоты с нескольких платформ в иерархические функциональные области для генерации разнообразных задач оценки. Предоставляя 2 753 задачи для шести операционных систем, AutoGUI-v2 строго тестирует агенты на семантику, заземление и прогнозирование динамического состояния на уровне регионов и элементов. Наша оценка выявляет разительный дуализм в VLM: в то время как модели с открытым исходным кодом, дообученные на данных агентов (например, Qwen3-VL), преуспевают в функциональном заземлении, коммерческие модели (например, Gemini-2.5-Pro-Thinking) доминируют в описании функциональности. Что особенно важно, все модели испытывают трудности со сложной логикой взаимодействия для редких действий, что подчеркивает, что глубокое функциональное понимание остается значительным препятствием. Систематически измеряя эти фундаментальные способности, AutoGUI-v2 предлагает новый подход для продвижения следующего поколения GUI-агентов.
English
Autonomous agents capable of navigating Graphical User Interfaces (GUIs) hold the potential to revolutionize digital productivity. However, achieving true digital autonomy extends beyond reactive element matching; it necessitates a predictive mental model of interface dynamics and the ability to foresee the "digital world state" resulting from interactions. Despite the perceptual capabilities of modern Vision-Language Models (VLMs), existing benchmarks remain bifurcated (focusing either on black-box task completion or static, shallow grounding), thereby failing to assess whether agents truly comprehend the implicit functionality and transition logic of GUIs. To bridge this gap, we introduce AutoGUI-v2, a comprehensive benchmark designed to evaluate deep GUI functionality understanding and interaction outcome prediction. We construct the benchmark using a novel VLM-human collaborative pipeline that recursively parses multi-platform screenshots into hierarchical functional regions to generate diverse evaluation tasks. Providing 2,753 tasks across six operating systems, AutoGUI-v2 rigorously tests agents on region and element-level semantics, grounding, and dynamic state prediction. Our evaluation reveals a striking dichotomy in VLMs: while open-source models fine-tuned on agent data (e.g., Qwen3-VL) excel at functional grounding, commercial models (e.g., Gemini-2.5-Pro-Thinking) dominate in functionality captioning. Crucially, all models struggle with complex interaction logic of uncommon actions, highlighting that deep functional understanding remains a significant hurdle. By systematically measuring these foundational capabilities, AutoGUI-v2 offers a new lens for advancing the next generation of GUI agents.