SafePred: Ein prädiktiver Schutzmechanismus für computernutzende Agenten mittels Weltmodellen
SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
February 2, 2026
papers.authors: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI
papers.abstract
Mit der weiten Verbreitung von computernutzenden Agenten (CUAs) in komplexen realen Umgebungen führen verbreitete langfristige Risiken oft zu schwerwiegenden und irreversiblen Folgen. Die meisten bestehenden Schutzmechanismen für CUAs verfolgen einen reaktiven Ansatz, der das Agentenverhalten nur innerhalb des aktuellen Beobachtungsraums einschränkt. Während diese Schutzmaßnahmen unmittelbare Kurzzeitrisiken verhindern können (z.B. das Anklicken eines Phishing-Links), können sie langfristige Risiken nicht proaktiv vermeiden: scheinbar vernünftige Aktionen können zu verzögert auftretenden Hochrisikofolgen führen (z.B. führt das Bereinigen von Logs dazu, dass zukünftige Überprüfungen nicht nachvollziehbar sind), die reaktive Schutzmechanismen im aktuellen Beobachtungsraum nicht identifizieren können. Um diese Einschränkungen zu adressieren, schlagen wir einen prädiktiven Schutzansatz vor, dessen Kernidee die Abstimmung vorhergesagter zukünftiger Risiken auf aktuelle Entscheidungen ist. Auf dieser Grundlage präsentieren wir SafePred, einen prädiktiven Schutzrahmen für CUAs, der eine Risiko-Entscheidungs-Schleife etabliert, um sicheres Agentenverhalten zu gewährleisten. SafePred unterstützt zwei Schlüsselfähigkeiten: (1) Kurz- und langfristige Risikovorhersage: Durch die Verwendung von Sicherheitsrichtlinien als Grundlage für die Risikovorhersage nutzt SafePred die Vorhersagefähigkeit des Weltmodells, um semantische Repräsentationen sowohl kurz- als auch langfristiger Risiken zu generieren und dadurch Aktionen zu identifizieren und auszuschließen, die zu Hochrisikozuständen führen; (2) Entscheidungsoptimierung: Übersetzung vorhergesagter Risiken in umsetzbare sichere Entscheidungsanleitungen durch schrittweise Interventionen und aufgabenbezogene Neuplanung. Umfangreiche Experimente zeigen, dass SafePred Hochrisikoverhalten signifikant reduziert, eine Sicherheitsleistung von über 97,6 % erreicht und die Aufgabennützlichkeit im Vergleich zu reaktiven Baseline-Modellen um bis zu 21,4 % steigert.
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.