SafePred: Una Barrera Predictiva para Agentes Informáticos mediante Modelos del Mundo
SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
February 2, 2026
Autores: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI
Resumen
Con el despliegue generalizado de Agentes de Uso Informático (CUAs) en entornos complejos del mundo real, los riesgos prevalentes a largo plazo suelen conducir a consecuencias graves e irreversibles. La mayoría de las protecciones existentes para CUAs adoptan un enfoque reactivo, restringiendo el comportamiento del agente únicamente dentro del espacio de observación actual. Si bien estas protecciones pueden prevenir riesgos inmediatos a corto plazo (por ejemplo, hacer clic en un enlace de phishing), no pueden evitar proactivamente los riesgos a largo plazo: acciones aparentemente razonables pueden conducir a consecuencias de alto riesgo que surgen con retraso (por ejemplo, la limpieza de registros provoca que futuras auditorías sean imposibles de rastrear), lo que las protecciones reactivas no pueden identificar dentro del espacio de observación actual. Para abordar estas limitaciones, proponemos un enfoque de protección predictiva, cuya idea central es alinear los riesgos futuros previstos con las decisiones actuales. Basándonos en este enfoque, presentamos SafePred, un marco de protección predictiva para CUAs que establece un bucle riesgo-decisión para garantizar un comportamiento seguro del agente. SafePred soporta dos capacidades clave: (1) Predicción de riesgos a corto y largo plazo: al utilizar políticas de seguridad como base para la predicción de riesgos, SafePred aprovecha la capacidad de predicción del modelo mundial para generar representaciones semánticas de riesgos tanto a corto como a largo plazo, identificando y podando así las acciones que conducen a estados de alto riesgo; (2) Optimización de decisiones: traduciendo los riesgos previstos en guías de decisión seguras y accionables mediante intervenciones a nivel de paso y replanificación a nivel de tarea. Experimentos exhaustivos demuestran que SafePred reduce significativamente los comportamientos de alto riesgo, logrando un rendimiento de seguridad superior al 97.6% y mejorando la utilidad de la tarea hasta en un 21.4% en comparación con los métodos de referencia reactivos.
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.