SafePred: Een Voorspellende Veiligheidsbarrière voor Computergebruikende Agents via Wereldmodellen

Samenvatting

Met de wijdverspreide inzet van Computergebruikende Agents (CUA's) in complexe real-world omgevingen leiden veelvoorkomende langetermijnrisico's vaak tot ernstige en onomkeerbare gevolgen. De meeste bestaande beveiligingsmaatregelen voor CUA's hanteren een reactieve aanpak, waarbij het gedrag van de agent alleen binnen de huidige observatieruimte wordt beperkt. Hoewel deze maatregelen onmiddellijke kortetermijnrisico's kunnen voorkomen (bijvoorbeeld het klikken op een phishinglink), kunnen ze langetermijnrisico's niet proactief vermijden: schijnbaar redelijke acties kunnen leiden tot hoogrisicogevolgen die met vertraging optreden (bijvoorbeeld het opschonen van logs waardoor toekomstige audits niet traceerbaar zijn), welke reactieve beveiligingsmaatregelen niet kunnen identificeren binnen de huidige observatieruimte. Om deze beperkingen aan te pakken, stellen we een predictieve beveiligingsaanpak voor, met als kernidee het afstemmen van voorspelde toekomstige risico's op huidige beslissingen. Gebaseerd op deze aanpak presenteren we SafePred, een predictief beveiligingskader voor CUA's dat een risico-naar-beslissing-lus establish om veilig agentgedrag te waarborgen. SafePred ondersteunt twee sleutelcapaciteiten: (1) Kort- en langetermijnrisicovoorspelling: door veiligheidsbeleid als basis voor risicovoorspelling te gebruiken, benut SafePred de voorspellingscapaciteit van het wereldmodel om semantische representaties van zowel kort- als langetermijnrisico's te genereren, waardoor acties die tot hoogrisicotoestanden leiden worden geïdentificeerd en gesnoeid; (2) Beslissingsoptimalisatie: het vertalen van voorspelde risico's naar uitvoerbare veilige beslissingsrichtlijnen via interventies op stapniveau en herplanning op taakniveau. Uitgebreide experimenten tonen aan dat SafePred hoogrisicogedrag significant reduceert, met een veiligheidsprestatie van meer dan 97,6% en een taaknut verbetert tot wel 21,4% vergeleken met reactieve baseline-methoden.

English

With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.

SafePred: Een Voorspellende Veiligheidsbarrière voor Computergebruikende Agents via Wereldmodellen

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

Samenvatting

Support