HarmonyGuard: Rumando à Segurança e Utilidade em Agentes Web por meio de Aprimoramento Adaptativo de Políticas e Otimização de Duplo Objetivo
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
August 6, 2025
Autores: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala permitem que agentes realizem tarefas de forma autônoma em ambientes web abertos. No entanto, à medida que as ameaças ocultas na web evoluem, os agentes web enfrentam o desafio de equilibrar o desempenho das tarefas com os riscos emergentes durante operações de longa sequência. Embora esse desafio seja crítico, as pesquisas atuais permanecem limitadas à otimização de objetivo único ou cenários de turno único, carecendo da capacidade de otimização colaborativa tanto da segurança quanto da utilidade em ambientes web. Para abordar essa lacuna, propomos o HarmonyGuard, uma estrutura colaborativa de multiagentes que aproveita o aprimoramento de políticas e a otimização de objetivos para melhorar conjuntamente a utilidade e a segurança. O HarmonyGuard apresenta uma arquitetura de multiagentes caracterizada por duas capacidades fundamentais: (1) Aprimoramento Adaptativo de Políticas: Introduzimos o Agente de Políticas dentro do HarmonyGuard, que extrai e mantém automaticamente políticas de segurança estruturadas a partir de documentos externos não estruturados, enquanto atualiza continuamente as políticas em resposta a ameaças em evolução. (2) Otimização de Duplo Objetivo: Com base nos objetivos duplos de segurança e utilidade, o Agente de Utilidade integrado ao HarmonyGuard realiza o raciocínio em tempo real markoviano para avaliar os objetivos e utiliza capacidades metacognitivas para sua otimização. Avaliações extensas em múltiplos benchmarks mostram que o HarmonyGuard melhora a conformidade com as políticas em até 38% e a conclusão de tarefas em até 20% em relação às linhas de base existentes, enquanto alcança mais de 90% de conformidade com as políticas em todas as tarefas. Nosso projeto está disponível aqui: https://github.com/YurunChen/HarmonyGuard.
English
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.