ChatPaper.aiChatPaper

SafePred: Прогнозирующий ограничитель для компьютерных агентов на основе моделей мира

SafePred: A Predictive Guardrail for Computer-Using Agents via World Models

February 2, 2026
Авторы: Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin, Shengyu Zhang
cs.AI

Аннотация

С распространением компьютерных агентов (CUA) в сложных реальных условиях повсеместные долгосрочные риски часто приводят к серьезным и необратимым последствиям. Большинство существующих защитных механизмов для CUA используют реактивный подход, ограничивая поведение агента лишь в рамках текущего пространства наблюдений. Хотя такие механизмы могут предотвращать краткосрочные риски (например, переход по фишинговой ссылке), они не способны проактивно избегать долгосрочных угроз: внешне разумные действия могут приводить к отсроченным высокорисковым последствиям (например, очистка логов делает будущие аудиты неотслеживаемыми), которые реактивные механизмы не могут выявить в текущем пространстве наблюдений. Для устранения этих ограничений мы предлагаем предиктивный подход к защитным механизмам, ключевой идеей которого является согласование прогнозируемых будущих рисков с текущими решениями. На основе этого подхода представлен SafePred — предиктивная защитная框架 для CUA, устанавливающая цикл «риск-решение» для обеспечения безопасного поведения агента. SafePred поддерживает две ключевые возможности: (1) Прогнозирование кратко- и долгосрочных рисков: используя политики безопасности как основу для прогнозирования,框架 задействует предсказательные возможности моделей мира для генерации семантических представлений рисков, выявляя и отсекая действия, ведущие к состояниям с высокой угрозой; (2) Оптимизация решений: трансляция прогнозируемых рисков в практические руководства по безопасному принятию решений через пошаговые интервенции и перепланирование на уровне задач. Экстенсивные эксперименты показывают, что SafePred значительно сокращает высокорисковое поведение, достигая более 97.6% показателей безопасности и улучшая полезность задач до 21.4% по сравнению с реактивными базовыми методами.
English
With the widespread deployment of Computer-using Agents (CUAs) in complex real-world environments, prevalent long-term risks often lead to severe and irreversible consequences. Most existing guardrails for CUAs adopt a reactive approach, constraining agent behavior only within the current observation space. While these guardrails can prevent immediate short-term risks (e.g., clicking on a phishing link), they cannot proactively avoid long-term risks: seemingly reasonable actions can lead to high-risk consequences that emerge with a delay (e.g., cleaning logs leads to future audits being untraceable), which reactive guardrails cannot identify within the current observation space. To address these limitations, we propose a predictive guardrail approach, with the core idea of aligning predicted future risks with current decisions. Based on this approach, we present SafePred, a predictive guardrail framework for CUAs that establishes a risk-to-decision loop to ensure safe agent behavior. SafePred supports two key abilities: (1) Short- and long-term risk prediction: by using safety policies as the basis for risk prediction, SafePred leverages the prediction capability of the world model to generate semantic representations of both short-term and long-term risks, thereby identifying and pruning actions that lead to high-risk states; (2) Decision optimization: translating predicted risks into actionable safe decision guidances through step-level interventions and task-level re-planning. Extensive experiments show that SafePred significantly reduces high-risk behaviors, achieving over 97.6% safety performance and improving task utility by up to 21.4% compared with reactive baselines.
PDF11February 12, 2026