ChatPaper.aiChatPaper

VeriGUI: Verifieerbare Lange-Keten GUI Dataset

VeriGUI: Verifiable Long-Chain GUI Dataset

August 6, 2025
Auteurs: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI

Samenvatting

Recente studies hebben zich verdiept in het construeren van autonome agents die in staat zijn complexe computer taken uit te voeren op basis van een Grafische Gebruikersinterface (GUI), met het potentieel om de mens-computerinteractie te revolutioneren. Ondanks bemoedigende resultaten richten bestaande inspanningen zich voornamelijk op kortetermijninteracties en vertrouwen ze op verificatie van alleen het eindresultaat, wat hun schaalbaarheid beperkt in realistische GUI-toepassingen die langetermijntaakdecompositie en -uitvoering vereisen. In dit werk introduceren we VeriGUI, een nieuw verifieerbaar langketen-GUI-dataset ontworpen om de ontwikkeling en evaluatie van generalistische GUI-agents in realistische computeromgevingen te vergemakkelijken. Onze dataset benadrukt twee kritische dimensies: (1) langketencomplexiteit, waarbij taken worden opgedeeld in een reeks onderling afhankelijke subtaken die honderden stappen omvatten, expliciet ontworpen om elke subtask als een geldig startpunt te laten dienen; en (2) subtaskniveau-verifieerbaarheid, wat diverse verkenningsstrategieën binnen elke subtask mogelijk maakt, terwijl ervoor wordt gezorgd dat elk subtaskniveau-doel verifieerbaar en consistent blijft. De dataset bestaat uit GUI-taaktrajecten op zowel desktop- als webomgevingen, geannoteerd door menselijke experts. Uitgebreide experimenten met VeriGUI met behulp van verschillende agents met verschillende foundationmodellen onthullen aanzienlijke prestatiekloof in het omgaan met langetermijntaken, wat de noodzaak benadrukt voor robuustere plannings- en besluitvormingscapaciteiten in GUI-agents.
English
Recent studies have delved into constructing autonomous agents capable of performing complex Graphical User Interface (GUI)-based computer tasks, with the potential to revolutionize human-computer interaction. Despite encouraging results, existing efforts mainly focus on short-term interactions and rely on outcome-only verification, thereby limiting their scalability in real-world GUI applications that demand long-horizon task decomposition and execution. In this work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed to facilitate the development and evaluation of generalist GUI agents operating in realistic computer environments. Our dataset emphasizes two critical dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of interdependent subtasks spanning hundreds of steps, explicitly designed to allow any subtask to serve as a valid starting point; and (2) subtask-level verifiability, which enables diverse exploration strategies within each subtask, while ensuring that each subtask-level goal remains verifiable and consistent. The dataset consists of GUI task trajectories across both desktop and web, annotated by human experts. Extensive experiments on VeriGUI using various agents with different foundation models reveal significant performance gaps in handling long-horizon tasks, highlighting the need for more robust planning and decision-making capabilities in GUI agents.
PDF1355August 7, 2025