ChatPaper.aiChatPaper

VeriGUI: Conjunto de Dados Verificável de Interface Gráfica de Longa Cadeia

VeriGUI: Verifiable Long-Chain GUI Dataset

August 6, 2025
Autores: Shunyu Liu, Minghao Liu, Huichi Zhou, Zhenyu Cui, Yang Zhou, Yuhao Zhou, Wendong Fan, Ge Zhang, Jiajun Shi, Weihao Xuan, Jiaxing Huang, Shuang Luo, Fang Wu, Heli Qi, Qingcheng Zeng, Ziqi Ren, Jialiang Gao, Jindi Lv, Junjie Wang, Aosong Feng, Heng Zhou, Wangchunshu Zhou, Zhenfei Yin, Wenlong Zhang, Guohao Li, Wenhao Yu, Irene Li, Lei Ma, Lei Bai, Qunshu Lin, Mingli Song, Dacheng Tao
cs.AI

Resumo

Estudos recentes têm se aprofundado na construção de agentes autônomos capazes de realizar tarefas complexas em computadores baseadas em Interfaces Gráficas de Usuário (GUI), com o potencial de revolucionar a interação humano-computador. Apesar de resultados encorajadores, os esforços existentes concentram-se principalmente em interações de curto prazo e dependem de verificação apenas de resultados, limitando assim sua escalabilidade em aplicações de GUI do mundo real que exigem decomposição e execução de tarefas de longo horizonte. Neste trabalho, apresentamos o VeriGUI, um novo conjunto de dados de GUI de cadeia longa verificável, projetado para facilitar o desenvolvimento e avaliação de agentes generalistas de GUI que operam em ambientes computacionais realistas. Nosso conjunto de dados enfatiza duas dimensões críticas: (1) complexidade de cadeia longa, com tarefas decompostas em uma sequência de subtarefas interdependentes abrangendo centenas de etapas, explicitamente projetadas para permitir que qualquer subtarefa sirva como ponto de partida válido; e (2) verificabilidade em nível de subtarefa, que permite estratégias de exploração diversas dentro de cada subtarefa, garantindo que o objetivo de cada subtarefa permaneça verificável e consistente. O conjunto de dados consiste em trajetórias de tarefas de GUI em ambientes de desktop e web, anotadas por especialistas humanos. Experimentos extensivos no VeriGUI utilizando diversos agentes com diferentes modelos de base revelam lacunas significativas de desempenho no tratamento de tarefas de longo horizonte, destacando a necessidade de capacidades mais robustas de planejamento e tomada de decisão em agentes de GUI.
English
Recent studies have delved into constructing autonomous agents capable of performing complex Graphical User Interface (GUI)-based computer tasks, with the potential to revolutionize human-computer interaction. Despite encouraging results, existing efforts mainly focus on short-term interactions and rely on outcome-only verification, thereby limiting their scalability in real-world GUI applications that demand long-horizon task decomposition and execution. In this work, we introduce VeriGUI, a novel verifiable long-chain GUI dataset designed to facilitate the development and evaluation of generalist GUI agents operating in realistic computer environments. Our dataset emphasizes two critical dimensions: (1) long-chain complexity, with tasks decomposed into a sequence of interdependent subtasks spanning hundreds of steps, explicitly designed to allow any subtask to serve as a valid starting point; and (2) subtask-level verifiability, which enables diverse exploration strategies within each subtask, while ensuring that each subtask-level goal remains verifiable and consistent. The dataset consists of GUI task trajectories across both desktop and web, annotated by human experts. Extensive experiments on VeriGUI using various agents with different foundation models reveal significant performance gaps in handling long-horizon tasks, highlighting the need for more robust planning and decision-making capabilities in GUI agents.
PDF1565August 7, 2025