HarmonyGuard: Обеспечение безопасности и полезности веб-агентов с помощью адаптивного улучшения политик и двойной оптимизации целей
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
August 6, 2025
Авторы: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
cs.AI
Аннотация
Крупные языковые модели позволяют агентам автономно выполнять задачи в открытых веб-средах. Однако по мере эволюции скрытых угроз в сети веб-агенты сталкиваются с проблемой балансировки выполнения задач и возникающих рисков в ходе длительных операций. Хотя эта проблема является критически важной, текущие исследования ограничиваются оптимизацией с одной целью или сценариями с одним шагом, не обладая возможностью совместной оптимизации безопасности и полезности в веб-средах. Для устранения этого пробела мы предлагаем HarmonyGuard, многозадачный фреймворк, который использует улучшение политик и оптимизацию целей для совместного повышения как полезности, так и безопасности. HarmonyGuard характеризуется архитектурой с несколькими агентами, обладающей двумя основными возможностями: (1) Адаптивное улучшение политик: мы вводим в HarmonyGuard Агента политик, который автоматически извлекает и поддерживает структурированные политики безопасности из неструктурированных внешних документов, одновременно непрерывно обновляя политики в ответ на развивающиеся угрозы. (2) Двухцелевая оптимизация: на основе двойных целей безопасности и полезности, Агент полезности, интегрированный в HarmonyGuard, выполняет марковское рассуждение в реальном времени для оценки целей и использует метакогнитивные способности для их оптимизации. Обширные оценки на нескольких тестовых наборах показывают, что HarmonyGuard улучшает соблюдение политик до 38% и завершение задач до 20% по сравнению с существующими базовыми методами, достигая более 90% соблюдения политик во всех задачах. Наш проект доступен здесь: https://github.com/YurunChen/HarmonyGuard.
English
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.