SafePred: 世界モデルに基づくコンピュータ利用エージェント向け予測的ガードレール
SafePred: A Predictive Guardrail for Computer-Using Agents via World Models
February 2, 2026
著者: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI
要旨
複雑な実世界環境におけるコンピュータ利用エージェント(CUA)の普及に伴い、普遍的な長期的リスクはしばしば深刻かつ不可逆的な結果を招く。既存のCUAガードレールの多くは反応的アプローチを採用し、エージェントの行動を現在の観測空間内にのみ制約する。これらのガードレールは短期的リスク(例:フィッシングリンクのクリック)の即時防止は可能だが、長期的リスクを積極的に回避することはできない。一見合理的な行動が遅延的に高危険な結果を招くケース(例:ログ消去による将来の監査追跡不能化)は、反応的ガードレールでは現在の観測空間内で検知できない。こうした課題に対処するため、我々は予測的ガードレールアプローチを提案する。その核心は、予測される将来リスクと現在の決定を整合させるという考え方に基づく。本アプローチに基づき、リスクと決定のループを確立してエージェント行動の安全性を確保する予測的ガードレールフレームワークSafePredを開発した。SafePredは二つの核心機能を備える:(1)短・長期的リスク予測:安全性ポリシーをリスク予測の基盤として、世界モデルの予測能力を活用し短期的・長期的リスクの意味的表現を生成、高危険状態に導く行動の特定と刈り込みを実現;(2)決定最適化:ステップ単位の介入とタスク単位の再計画により、予測リスクを実践的な安全決定指針に変換。大規模実験により、SafePredが高危険行動を大幅に低減し、97.6%以上の安全性性能を達成するとともに、反応的ベースライン比で最大21.4%のタスク効率向上を実現することを確認した。
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.