ChatPaper.aiChatPaper

정책 유발 오류 복구: 강건한 GUI 에이전트를 위한 벤치마킹 및 궤적 합성

Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28, 2026
저자: Tianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang
cs.AI

초록

GUI 에이전트가 빠르게 발전해 왔지만, 자체 오류로부터 회복하는 강건성이 부족한 경우가 많아 실제 환경 배포에 걸림돌이 되고 있다. 평가 및 데이터 수준 모두에서 이러한 격차를 해소하기 위해, 우리는 GUI-RobustEval을 도입하고 Robustness-driven Trajectory Synthesis를 제안한다. GUI-RobustEval은 1,216개의 실행 가능한 테스트 케이스를 포함하며, 광범위하고 현실적인 오류 모드 전반에 걸쳐 오류 회복 능력을 체계적으로 측정한다. 데이터 수준에서 RoTS는 확장 가능한 합성 프레임워크로, 트리 기반 파이프라인을 통해 다양한 오류 모드를 능동적으로 발견하고 이에 상응하는 회복 단계를 합성하여 80만 개의 고품질 데이터를 생성한다. 우리 데이터셋으로 미세 조정된 두 모델 RoTS-7B와 RoTS-32B는 모두 GUI-RobustEval 및 기존 GUI 벤치마크에서 유의미한 성능 향상을 보여준다. 특히 RoTS-32B는 OSWorld에서 47.4%의 성공률과 33.8%의 All-Pass@4 점수로 최첨단 성능을 달성하여, 개선된 장기 오류 회복 능력이 강건성과 전반적인 성능 향상에 기여함을 시사한다. 코드는 https://github.com/AlibabaResearch/RoTS에서 확인할 수 있다.
English
While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.