VeriGUI: Dataset Verificabile di GUI a Catena Lunga
VeriGUI: Verifiable Long-Chain GUI Dataset
August 6, 2025
Autori: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI
Abstract
Studi recenti si sono concentrati sulla costruzione di agenti autonomi in grado di eseguire complesse attività informatiche basate su Interfacce Grafiche Utente (GUI), con il potenziale di rivoluzionare l'interazione uomo-computer. Nonostante i risultati incoraggianti, gli sforzi esistenti si concentrano principalmente su interazioni a breve termine e si affidano a verifiche basate esclusivamente sui risultati, limitando così la loro scalabilità in applicazioni GUI del mondo reale che richiedono la scomposizione e l'esecuzione di attività a lungo termine. In questo lavoro, introduciamo VeriGUI, un nuovo dataset verificabile a catena lunga progettato per facilitare lo sviluppo e la valutazione di agenti GUI generalisti che operano in ambienti informatici realistici. Il nostro dataset enfatizza due dimensioni critiche: (1) complessità a catena lunga, con attività scomposte in una sequenza di sottotask interdipendenti che si estendono per centinaia di passaggi, progettati esplicitamente per consentire a qualsiasi sottotask di fungere da punto di partenza valido; e (2) verificabilità a livello di sottotask, che consente strategie di esplorazione diverse all'interno di ciascun sottotask, garantendo al contempo che ogni obiettivo a livello di sottotask rimanga verificabile e coerente. Il dataset è composto da traiettorie di attività GUI su desktop e web, annotate da esperti umani. Esperimenti estesi su VeriGUI utilizzando vari agenti con diversi modelli di base rivelano significative lacune nelle prestazioni nella gestione di attività a lungo termine, evidenziando la necessità di capacità di pianificazione e decisione più robuste negli agenti GUI.
English
Recent studies have delved into constructing autonomous agents capable of
performing complex Graphical User Interface (GUI)-based computer tasks, with
the potential to revolutionize human-computer interaction. Despite encouraging
results, existing efforts mainly focus on short-term interactions and rely on
outcome-only verification, thereby limiting their scalability in real-world GUI
applications that demand long-horizon task decomposition and execution. In this
work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed
to facilitate the development and evaluation of generalist GUI agents operating
in realistic computer environments. Our dataset emphasizes two critical
dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of
interdependent subtasks spanning hundreds of steps, explicitly designed to
allow any subtask to serve as a valid starting point; and (2) subtask-level
verifiability, which enables diverse exploration strategies within each
subtask, while ensuring that each subtask-level goal remains verifiable and
consistent. The dataset consists of GUI task trajectories across both desktop
and web, annotated by human experts. Extensive experiments on VeriGUI using
various agents with different foundation models reveal significant performance
gaps in handling long-horizon tasks, highlighting the need for more robust
planning and decision-making capabilities in GUI agents.