ChatPaper.aiChatPaper

Recuperando Erros Induzidos por Políticas: Benchmarking e Síntese de Trajetórias para Agentes de GUI Robustos

Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28, 2026
Autores: Tianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang
cs.AI

Resumo

Embora os agentes GUI tenham avançado rapidamente, frequentemente carecem da robustez necessária para se recuperarem de seus próprios erros, dificultando a implementação em cenários reais. Para preencher essa lacuna tanto no nível de avaliação quanto no de dados, introduzimos o GUI-RobustEval e propomos a Síntese de Trajetórias Orientada por Robustez. O GUI-RobustEval contém 1.216 casos de teste executáveis que medem sistematicamente as capacidades de recuperação de erros em um espectro amplo e realista de modos de erro. No nível de dados, o RoTS é uma estrutura de síntese escalável que cria 800 mil dados de alta qualidade por meio de um pipeline baseado em árvore que descobre proativamente diversos modos de erro e sintetiza etapas de recuperação correspondentes. Nossos dois modelos, RoTS-7B e RoTS-32B, ajustados finamente em nosso conjunto de dados, demonstraram ganhos significativos tanto no GUI-RobustEval quanto em benchmarks tradicionais de GUI. Notavelmente, o RoTS-32B alcança desempenho de estado da arte no OSWorld, com uma taxa de sucesso de 47,4% e uma pontuação All-Pass@4 de 33,8%, sugerindo que a melhoria na capacidade de recuperação de erros de longo horizonte contribui tanto para a robustez quanto para o desempenho geral. Nosso código está disponível em https://github.com/AlibabaResearch/RoTS.
English
While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.