Récupération des erreurs induites par les politiques : benchmarking et synthèse de trajectoires pour des agents GUI robustes

Résumé

Bien que les agents d'interface graphique (GUI) aient progressé rapidement, ils manquent souvent de robustesse pour se remettre de leurs propres erreurs, ce qui entrave leur déploiement dans le monde réel. Pour combler cette lacune à la fois au niveau de l'évaluation et des données, nous présentons GUI-RobustEval et proposons la Synthèse de trajectoires guidée par la robustesse (Robustness-driven Trajectory Synthesis, RoTS). GUI-RobustEval contient 1 216 cas de test exécutables qui mesurent systématiquement les capacités de récupération d'erreurs sur un large éventail réaliste de modes d'erreur. Au niveau des données, RoTS est un cadre de synthèse évolutif qui génère 800 000 données de haute qualité via un pipeline basé sur un arbre, qui découvre de manière proactive divers modes d'erreur et synthétise les étapes de récupération correspondantes. Nos deux modèles, RoTS-7B et RoTS-32B, affinés sur notre jeu de données, montrent tous deux des gains significatifs sur GUI-RobustEval et les benchmarks GUI traditionnels. Notamment, RoTS-32B atteint des performances de pointe sur OSWorld, avec un taux de réussite de 47,4 % et un score All-Pass@4 de 33,8 %, ce qui suggère qu'une meilleure capacité de récupération d'erreurs sur des horizons longs contribue à la fois à la robustesse et aux performances globales. Notre code est disponible à l'adresse https://github.com/AlibabaResearch/RoTS.

English

While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.