Behebung von Policy-induzierten Fehlern: Benchmarking und Trajektoriensynthese für robuste GUI-Agenten

Zusammenfassung

Obwohl GUI-Agenten rasch Fortschritte gemacht haben, fehlt ihnen oft die Robustheit, um sich von eigenen Fehlern zu erholen, was den Einsatz in der realen Welt behindert. Um diese Lücke sowohl auf Evaluations- als auch auf Datenebene zu schließen, führen wir GUI-RobustEval ein und schlagen Robustness-driven Trajectory Synthesis vor. GUI-RobustEval enthält 1.216 ausführbare Testfälle, die systematisch die Fähigkeiten zur Fehlerbehebung über ein breites und realistisches Spektrum von Fehlermodi hinweg messen. Auf Datenebene ist RoTS ein skalierbares Synthese-Framework, das durch eine baumbasierte Pipeline 800.000 hochwertige Daten erstellt, die proaktiv verschiedene Fehlermodi entdeckt und entsprechende Wiederherstellungsschritte synthetisiert. Unsere beiden Modelle, RoTS-7B und RoTS-32B, die auf unserem Datensatz feinabgestimmt wurden, zeigen beide signifikante Verbesserungen bei GUI-RobustEval und traditionellen GUI-Benchmarks. Insbesondere erreicht RoTS-32B eine Spitzenleistung auf OSWorld mit einer Erfolgsquote von 47,4% und einem All-Pass@4-Score von 33,8%, was darauf hindeutet, dass eine verbesserte Fehlerbehebung über lange Horizonte sowohl zur Robustheit als auch zur Gesamtleistung beiträgt. Unser Code ist verfügbar unter https://github.com/AlibabaResearch/RoTS.

English

While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.