HarmonyGuard: Hacia la Seguridad y Utilidad en Agentes Web mediante Mejora Adaptativa de Políticas y Optimización de Doble Objetivo
HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
August 6, 2025
Autores: Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala permiten que los agentes realicen tareas de manera autónoma en entornos web abiertos. Sin embargo, a medida que evolucionan las amenazas ocultas en la web, los agentes web enfrentan el desafío de equilibrar el desempeño de las tareas con los riesgos emergentes durante operaciones de secuencia larga. Aunque este desafío es crítico, la investigación actual se limita a la optimización de un solo objetivo o a escenarios de una sola interacción, careciendo de la capacidad para la optimización colaborativa tanto de la seguridad como de la utilidad en entornos web. Para abordar esta brecha, proponemos HarmonyGuard, un marco colaborativo multiagente que aprovecha la mejora de políticas y la optimización de objetivos para mejorar conjuntamente tanto la utilidad como la seguridad. HarmonyGuard presenta una arquitectura multiagente caracterizada por dos capacidades fundamentales: (1) Mejora Adaptativa de Políticas: Introducimos el Agente de Políticas dentro de HarmonyGuard, que extrae y mantiene automáticamente políticas de seguridad estructuradas a partir de documentos externos no estructurados, mientras actualiza continuamente las políticas en respuesta a las amenazas en evolución. (2) Optimización de Doble Objetivo: Basado en los objetivos duales de seguridad y utilidad, el Agente de Utilidad integrado en HarmonyGuard realiza un razonamiento en tiempo real de tipo Markoviano para evaluar los objetivos y utiliza capacidades metacognitivas para su optimización. Evaluaciones extensas en múltiples benchmarks muestran que HarmonyGuard mejora el cumplimiento de políticas hasta en un 38% y la finalización de tareas hasta en un 20% en comparación con las líneas base existentes, logrando un cumplimiento de políticas superior al 90% en todas las tareas. Nuestro proyecto está disponible aquí: https://github.com/YurunChen/HarmonyGuard.
English
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.