VeriGUI: Verifizierbarer Long-Chain GUI-Datensatz
VeriGUI: Verifiable Long-Chain GUI Dataset
August 6, 2025
papers.authors: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI
papers.abstract
Aktuelle Studien haben sich mit der Entwicklung autonomer Agenten befasst, die in der Lage sind, komplexe Computeraufgaben auf Basis von grafischen Benutzeroberflächen (GUIs) auszuführen, was das Potenzial hat, die Mensch-Computer-Interaktion zu revolutionieren. Trotz ermutigender Ergebnisse konzentrieren sich bestehende Bemühungen hauptsächlich auf kurzfristige Interaktionen und stützen sich auf eine reine Ergebnisüberprüfung, was ihre Skalierbarkeit in realen GUI-Anwendungen, die eine langfristige Aufgabenzerlegung und -ausführung erfordern, einschränkt. In dieser Arbeit stellen wir VeriGUI vor, einen neuartigen, verifizierbaren Datensatz für langkettige GUI-Aufgaben, der die Entwicklung und Bewertung von generalistischen GUI-Agenten in realistischen Computerumgebungen erleichtern soll. Unser Datensatz betont zwei kritische Dimensionen: (1) die Komplexität langkettiger Aufgaben, bei denen Aufgaben in eine Abfolge voneinander abhängiger Teilaufgaben zerlegt werden, die Hunderte von Schritten umfassen und explizit so gestaltet sind, dass jede Teilaufgabe als gültiger Ausgangspunkt dienen kann; und (2) die Verifizierbarkeit auf Teilaufgabenebene, die verschiedene Explorationsstrategien innerhalb jeder Teilaufgabe ermöglicht, während sichergestellt wird, dass das Ziel jeder Teilaufgabe verifizierbar und konsistent bleibt. Der Datensatz besteht aus GUI-Aufgabenverläufen sowohl auf Desktop- als auch auf Webplattformen, die von menschlichen Experten annotiert wurden. Umfangreiche Experimente mit VeriGUI unter Verwendung verschiedener Agenten mit unterschiedlichen Basismodellen zeigen erhebliche Leistungslücken bei der Bewältigung langfristiger Aufgaben auf und unterstreichen die Notwendigkeit robusterer Planungs- und Entscheidungsfähigkeiten in GUI-Agenten.
English
Recent studies have delved into constructing autonomous agents capable of
performing complex Graphical User Interface (GUI)-based computer tasks, with
the potential to revolutionize human-computer interaction. Despite encouraging
results, existing efforts mainly focus on short-term interactions and rely on
outcome-only verification, thereby limiting their scalability in real-world GUI
applications that demand long-horizon task decomposition and execution. In this
work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed
to facilitate the development and evaluation of generalist GUI agents operating
in realistic computer environments. Our dataset emphasizes two critical
dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of
interdependent subtasks spanning hundreds of steps, explicitly designed to
allow any subtask to serve as a valid starting point; and (2) subtask-level
verifiability, which enables diverse exploration strategies within each
subtask, while ensuring that each subtask-level goal remains verifiable and
consistent. The dataset consists of GUI task trajectories across both desktop
and web, annotated by human experts. Extensive experiments on VeriGUI using
various agents with different foundation models reveal significant performance
gaps in handling long-horizon tasks, highlighting the need for more robust
planning and decision-making capabilities in GUI agents.