SafePred: Uma Barreira de Proteção Preditiva para Agentes que Utilizam Computadores via Modelos de Mundo

Resumo

Com a implantação generalizada de Agentes de Uso de Computador (CUAs) em ambientes complexos do mundo real, os riscos prevalecentes de longo prazo frequentemente levam a consequências graves e irreversíveis. A maioria dos mecanismos de proteção existentes para CUAs adota uma abordagem reativa, restringindo o comportamento do agente apenas dentro do espaço de observação atual. Embora essas proteções possam prevenir riscos imediatos de curto prazo (por exemplo, clicar em um link de phishing), elas não podem evitar proativamente riscos de longo prazo: ações aparentemente razoáveis podem levar a consequências de alto risco que surgem com um atraso (por exemplo, limpar logs leva a futuras auditorias sendo intrastáveis), as quais as proteções reativas não conseguem identificar dentro do espaço de observação atual. Para lidar com essas limitações, propomos uma abordagem de proteção preditiva, com a ideia central de alinhar riscos futuros previstos com decisões atuais. Com base nessa abordagem, apresentamos o SafePred, uma estrutura de proteção preditiva para CUAs que estabelece um ciclo de risco-decisão para garantir um comportamento seguro do agente. O SafePred suporta duas habilidades principais: (1) Previsão de riscos de curto e longo prazo: ao usar políticas de segurança como base para a previsão de riscos, o SafePred aproveita a capacidade de previsão do modelo mundial para gerar representações semânticas de riscos de curto e longo prazo, identificando e podando assim ações que levam a estados de alto risco; (2) Otimização de decisão: traduzindo riscos previstos em orientações de decisão segura acionáveis por meio de intervenções a nível de passo e replanejamento a nível de tarefa. Experimentos extensivos mostram que o SafePred reduz significativamente comportamentos de alto risco, atingindo mais de 97,6% de desempenho de segurança e melhorando a utilidade da tarefa em até 21,4% em comparação com as linhas de base reativas.

English

With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.