VeriGUI: Conjunto de Datos Verificable de Interfaces Gráficas de Cadena Larga
VeriGUI: Verifiable Long-Chain GUI Dataset
August 6, 2025
Autores: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI
Resumen
Estudios recientes han profundizado en la construcción de agentes autónomos capaces de realizar tareas complejas en computadoras basadas en Interfaces Gráficas de Usuario (GUI), con el potencial de revolucionar la interacción humano-computadora. A pesar de resultados alentadores, los esfuerzos existentes se centran principalmente en interacciones a corto plazo y dependen de verificaciones basadas únicamente en resultados, lo que limita su escalabilidad en aplicaciones GUI del mundo real que requieren descomposición y ejecución de tareas de largo alcance. En este trabajo, presentamos VeriGUI, un novedoso conjunto de datos GUI de cadena larga verificable diseñado para facilitar el desarrollo y evaluación de agentes GUI generalistas que operan en entornos informáticos realistas. Nuestro conjunto de datos enfatiza dos dimensiones críticas: (1) complejidad de cadena larga, con tareas descompuestas en una secuencia de subtareas interdependientes que abarcan cientos de pasos, diseñadas explícitamente para permitir que cualquier subtarea sirva como punto de partida válido; y (2) verificabilidad a nivel de subtarea, que permite diversas estrategias de exploración dentro de cada subtarea, asegurando que cada objetivo a nivel de subtarea sea verificable y consistente. El conjunto de datos consta de trayectorias de tareas GUI tanto en escritorio como en la web, anotadas por expertos humanos. Experimentos extensos en VeriGUI utilizando varios agentes con diferentes modelos base revelan brechas significativas en el manejo de tareas de largo alcance, destacando la necesidad de capacidades más robustas de planificación y toma de decisiones en los agentes GUI.
English
Recent studies have delved into constructing autonomous agents capable of
performing complex Graphical User Interface (GUI)-based computer tasks, with
the potential to revolutionize human-computer interaction. Despite encouraging
results, existing efforts mainly focus on short-term interactions and rely on
outcome-only verification, thereby limiting their scalability in real-world GUI
applications that demand long-horizon task decomposition and execution. In this
work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed
to facilitate the development and evaluation of generalist GUI agents operating
in realistic computer environments. Our dataset emphasizes two critical
dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of
interdependent subtasks spanning hundreds of steps, explicitly designed to
allow any subtask to serve as a valid starting point; and (2) subtask-level
verifiability, which enables diverse exploration strategies within each
subtask, while ensuring that each subtask-level goal remains verifiable and
consistent. The dataset consists of GUI task trajectories across both desktop
and web, annotated by human experts. Extensive experiments on VeriGUI using
various agents with different foundation models reveal significant performance
gaps in handling long-horizon tasks, highlighting the need for more robust
planning and decision-making capabilities in GUI agents.