HarmonyGuard: Zu Sicherheit und Nutzen in Web-Agenten durch adaptive Politikverbesserung und Dual-Ziel-Optimierung
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
August 6, 2025
papers.authors: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
cs.AI
papers.abstract
Große Sprachmodelle ermöglichen es Agenten, Aufgaben in offenen Webumgebungen autonom auszuführen. Da sich jedoch versteckte Bedrohungen im Web weiterentwickeln, stehen Webagenten vor der Herausforderung, die Aufgabenleistung mit den aufkommenden Risiken während langwieriger Operationen in Einklang zu bringen. Obwohl diese Herausforderung entscheidend ist, beschränkt sich die aktuelle Forschung auf die Einzelzieloptimierung oder Einzelszenarien und verfügt nicht über die Fähigkeit, Sicherheit und Nutzen in Webumgebungen gemeinsam zu optimieren. Um diese Lücke zu schließen, schlagen wir HarmonyGuard vor, ein Multi-Agenten-Kollaborationsframework, das durch Politikverbesserung und Zieloptimierung sowohl den Nutzen als auch die Sicherheit gemeinsam verbessert. HarmonyGuard zeichnet sich durch eine Multi-Agenten-Architektur aus, die durch zwei grundlegende Fähigkeiten charakterisiert ist: (1) Adaptive Politikverbesserung: Wir führen den Policy Agent innerhalb von HarmonyGuard ein, der automatisch strukturierte Sicherheitsrichtlinien aus unstrukturierten externen Dokumenten extrahiert und pflegt, während er die Richtlinien kontinuierlich an die sich entwickelnden Bedrohungen anpasst. (2) Duale Zieloptimierung: Basierend auf den dualen Zielen von Sicherheit und Nutzen führt der in HarmonyGuard integrierte Utility Agent eine Markovsche Echtzeit-Argumentation durch, um die Ziele zu bewerten, und nutzt metakognitive Fähigkeiten zu deren Optimierung. Umfangreiche Bewertungen auf mehreren Benchmarks zeigen, dass HarmonyGuard die Richtlinienkonformität um bis zu 38 % und die Aufgabenabschlussrate um bis zu 20 % gegenüber bestehenden Baselines verbessert, während es eine Richtlinienkonformität von über 90 % bei allen Aufgaben erreicht. Unser Projekt ist hier verfügbar: https://github.com/YurunChen/HarmonyGuard.
English
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.