Recuperación de errores inducidos por políticas: Evaluación comparativa y síntesis de trayectorias para agentes GUI robustos

Resumen

Aunque los agentes de interfaz gráfica de usuario (GUI) han avanzado rápidamente, a menudo carecen de la solidez necesaria para recuperarse de sus propios errores, lo que dificulta su implementación en entornos reales. Para cerrar esta brecha tanto a nivel de evaluación como de datos, presentamos GUI-RobustEval y proponemos la Síntesis de Trayectorias Impulsada por la Robustez. GUI-RobustEval contiene 1.216 casos de prueba ejecutables que miden sistemáticamente las capacidades de recuperación de errores en un espectro amplio y realista de modos de error. A nivel de datos, RoTS es un marco de síntesis escalable que crea 800k datos de alta calidad mediante un pipeline basado en árboles que descubre de manera proactiva diversos modos de error y sintetiza los pasos de recuperación correspondientes. Nuestros dos modelos, RoTS-7B y RoTS-32B, ajustados en nuestro conjunto de datos, demuestran mejoras significativas tanto en GUI-RobustEval como en evaluaciones tradicionales de GUI. En particular, RoTS-32B logra un rendimiento de última generación en OSWorld, con una tasa de éxito del 47.4 % y una puntuación All-Pass@4 del 33.8 %, lo que sugiere que una mejor capacidad de recuperación de errores a largo plazo contribuye tanto a la robustez como al rendimiento general. Nuestro código está disponible en https://github.com/AlibabaResearch/RoTS.

English

While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains 1,216 executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates 800k high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a 47.4% success rate and a 33.8% All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.