Herstel van beleidsgeïnduceerde fouten: benchmarking en trajectoriessynthese voor robuuste GUI-agenten

Samenvatting

Hoewel GUI-agenten snel vooruitgang hebben geboekt, ontbreekt het hen vaak aan de robuustheid om te herstellen van hun eigen fouten, wat de implementatie in de praktijk belemmert. Om deze kloof te overbruggen op zowel het evaluatie- als het dataniveau, introduceren we GUI-RobustEval en stellen we Robustness-driven Trajectory Synthesis voor. GUI-RobustEval bevat 1.216 uitvoerbare testgevallen die systematisch de mogelijkheden tot foutherstel meten over een breed en realistisch spectrum van foutmodi. Op dataniveau is RoTS een schaalbaar syntheseraamwerk dat 800k hoogwaardige gegevens creëert via een op bomen gebaseerde pijplijn die proactief diverse foutmodi ontdekt en bijbehorende herstelstappen synthetiseert. Onze twee modellen, RoTS-7B en RoTS-32B, fijngestemd op onze dataset, tonen beide aanzienlijke verbeteringen op GUI-RobustEval en traditionele GUI-benchmarks. Opmerkelijk is dat RoTS-32B state-of-the-art prestaties levert op OSWorld, met een slagingspercentage van 47,4% en een All-Pass@4-score van 33,8%, wat suggereert dat een verbeterd vermogen tot foutherstel over lange horizon bijdraagt aan zowel robuustheid als algehele prestaties. Onze code is beschikbaar op https://github.com/AlibabaResearch/RoTS.

English

While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.