SafePred : Un garde-fou prédictif pour les agents informatiques via des modèles du monde
SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
February 2, 2026
papers.authors: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI
papers.abstract
Avec le déploiement généralisé d'Agents Informatiques (AI) dans des environnements réels complexes, les risques à long terme prévalents entraînent souvent des conséquences graves et irréversibles. La plupart des garde-fous existants pour les AI adoptent une approche réactive, limitant le comportement de l'agent uniquement dans l'espace d'observation actuel. Bien que ces garde-fous puissent prévenir les risques immédiats à court terme (par exemple, cliquer sur un lien de phishing), ils ne peuvent pas éviter proactivement les risques à long terme : des actions apparemment raisonnables peuvent conduire à des conséquences à haut risque qui émergent avec un délai (par exemple, nettoyer les journaux rend les futures audits intraçables), ce que les garde-fous réactifs ne peuvent pas identifier dans l'espace d'observation actuel. Pour remédier à ces limitations, nous proposons une approche de garde-fou prédictif, dont l'idée centrale est d'aligner les risques futurs prédits avec les décisions actuelles. Sur la base de cette approche, nous présentons SafePred, un cadre de garde-fou prédictif pour les AI qui établit une boucle risque-décision pour garantir un comportement sécurisé de l'agent. SafePred prend en charge deux capacités clés : (1) La prédiction des risques à court et long terme : en utilisant les politiques de sécurité comme base pour la prédiction des risques, SafePred exploite la capacité de prédiction du modèle mondial pour générer des représentations sémantiques des risques à court et long terme, identifiant et élaguant ainsi les actions conduisant à des états à haut risque ; (2) L'optimisation des décisions : traduire les risques prédits en guides de décision sécurisés exploitables grâce à des interventions au niveau des étapes et une re-planification au niveau des tâches. Des expériences approfondies montrent que SafePred réduit significativement les comportements à haut risque, atteignant plus de 97,6 % de performance en matière de sécurité et améliorant l'utilité des tâches jusqu'à 21,4 % par rapport aux bases réactives.
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.