ChatPaper.aiChatPaper

SafePred: 세계 모델 기반 컴퓨팅 에이전트 예방적 안전 장치

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

February 2, 2026
저자: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI

초록

복잡한 현실 환경에서 컴퓨터 활용 에이전트(CUAs)의 보편적 배치와 함께 만연한 장기적 위험은 종종 심각하고 되돌릴 수 없는 결과를 초래합니다. 기존 CUA 가드레일 대부분은 반응적 접근을 채택하여 에이전트 행동을 현재 관찰 공간 내에서만 제한합니다. 이러한 가드레일은 단기 위험(예: 피싱 링크 클릭)을 즉각적으로 방지할 수 있지만, 장기적 위험을 사전에 피할 수는 없습니다. 겉보기에 합리적인 행동이 지연되어 발생하는 고위험 결과(예: 로그 삭제로 인한 향후 감사 추적 불가)를 초래할 수 있는데, 반응형 가드레일은 현재 관찰 공간 내에서 이를 식별하지 못합니다. 이러한 한계를 해결하기 위해 우리는 예측된 미래 위험과 현재 의사결정을 정렬시키는 핵심 아이디어를 바탕으로 예측형 가드레일 접근법을 제안합니다. 이를 기반으로 위험-의사결정 루프를 구축하여 안전한 에이전트 행동을 보장하는 예측형 가드레일 프레임워크인 SafePred을 제시합니다. SafePred은 두 가지 핵심 기능을 지원합니다: (1) 단기 및 장기 위험 예측: 안전 정책을 위험 예측의 기반으로 활용하여 세계 모델의 예측 능력을 통해 단기 및 장기 위험에 대한 의미론적 표현을 생성함으로써 고위험 상태로 이어지는 행동을 식별 및 제거합니다. (2) 의사결정 최적화: 단계별 개입과 작업 수준 재계획을 통해 예측된 위험을 실행 가능한 안전 의사결정 지침으로 변환합니다. 폭넓은 실험 결과, SafePred이 고위험 행동을 크게 줄이며 97.6% 이상의 안전 성능을 달성하고 반응형 기준선 대비 작업 효율성을 최대 21.4% 향상시키는 것으로 나타났습니다.
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.
PDF11February 12, 2026