HarmonyGuard: Verso Sicurezza e Utilità negli Agenti Web tramite Miglioramento Adattivo delle Politiche e Ottimizzazione a Doppio Obiettivo
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
August 6, 2025
Autori: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
cs.AI
Abstract
I grandi modelli linguistici consentono agli agenti di eseguire autonomamente compiti in ambienti web aperti. Tuttavia, man mano che le minacce nascoste nel web si evolvono, gli agenti web si trovano ad affrontare la sfida di bilanciare le prestazioni dei compiti con i rischi emergenti durante operazioni a sequenza lunga. Sebbene questa sfida sia cruciale, la ricerca attuale si limita all'ottimizzazione a obiettivo singolo o a scenari a turno singolo, mancando della capacità di ottimizzazione collaborativa sia della sicurezza che dell'utilità negli ambienti web. Per colmare questa lacuna, proponiamo HarmonyGuard, un framework collaborativo multi-agente che sfrutta il miglioramento delle politiche e l'ottimizzazione degli obiettivi per migliorare congiuntamente sia l'utilità che la sicurezza. HarmonyGuard presenta un'architettura multi-agente caratterizzata da due capacità fondamentali: (1) Miglioramento Adattivo delle Politiche: Introduciamo l'Agente delle Politiche all'interno di HarmonyGuard, che estrae e mantiene automaticamente politiche di sicurezza strutturate da documenti esterni non strutturati, aggiornando continuamente le politiche in risposta alle minacce in evoluzione. (2) Ottimizzazione a Doppio Obiettivo: Basandosi sui doppi obiettivi di sicurezza e utilità, l'Agente di Utilità integrato in HarmonyGuard esegue il ragionamento in tempo reale markoviano per valutare gli obiettivi e utilizza capacità metacognitive per la loro ottimizzazione. Valutazioni estese su più benchmark mostrano che HarmonyGuard migliora la conformità alle politiche fino al 38% e il completamento dei compiti fino al 20% rispetto alle baseline esistenti, raggiungendo oltre il 90% di conformità alle politiche in tutti i compiti. Il nostro progetto è disponibile qui: https://github.com/YurunChen/HarmonyGuard.
English
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.