VeriGUI : Ensemble de données vérifiable pour les interfaces graphiques à longue chaîne
VeriGUI: Verifiable Long-Chain GUI Dataset
August 6, 2025
papers.authors: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI
papers.abstract
Des études récentes se sont penchées sur la construction d'agents autonomes capables d'exécuter des tâches informatiques complexes basées sur des interfaces graphiques (GUI), avec le potentiel de révolutionner l'interaction homme-machine. Malgré des résultats encourageants, les efforts existants se concentrent principalement sur des interactions à court terme et reposent sur une vérification basée uniquement sur les résultats, limitant ainsi leur évolutivité dans des applications GUI réelles qui nécessitent une décomposition et une exécution de tâches à long terme. Dans ce travail, nous présentons VeriGUI, un nouveau jeu de données GUI vérifiable à chaîne longue, conçu pour faciliter le développement et l'évaluation d'agents GUI généralistes opérant dans des environnements informatiques réalistes. Notre jeu de données met l'accent sur deux dimensions critiques : (1) la complexité à chaîne longue, avec des tâches décomposées en une séquence de sous-tâches interdépendantes couvrant des centaines d'étapes, explicitement conçues pour permettre à toute sous-tâche de servir de point de départ valide ; et (2) la vérifiabilité au niveau des sous-tâches, qui permet des stratégies d'exploration diversifiées au sein de chaque sous-tâche, tout en garantissant que chaque objectif au niveau des sous-tâches reste vérifiable et cohérent. Le jeu de données comprend des trajectoires de tâches GUI sur des environnements de bureau et web, annotées par des experts humains. Des expériences approfondies sur VeriGUI utilisant divers agents avec différents modèles de base révèlent des écarts de performance significatifs dans la gestion des tâches à long terme, soulignant la nécessité de capacités de planification et de prise de décision plus robustes pour les agents GUI.
English
Recent studies have delved into constructing autonomous agents capable of
performing complex Graphical User Interface (GUI)-based computer tasks, with
the potential to revolutionize human-computer interaction. Despite encouraging
results, existing efforts mainly focus on short-term interactions and rely on
outcome-only verification, thereby limiting their scalability in real-world GUI
applications that demand long-horizon task decomposition and execution. In this
work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed
to facilitate the development and evaluation of generalist GUI agents operating
in realistic computer environments. Our dataset emphasizes two critical
dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of
interdependent subtasks spanning hundreds of steps, explicitly designed to
allow any subtask to serve as a valid starting point; and (2) subtask-level
verifiability, which enables diverse exploration strategies within each
subtask, while ensuring that each subtask-level goal remains verifiable and
consistent. The dataset consists of GUI task trajectories across both desktop
and web, annotated by human experts. Extensive experiments on VeriGUI using
various agents with different foundation models reveal significant performance
gaps in handling long-horizon tasks, highlighting the need for more robust
planning and decision-making capabilities in GUI agents.