Autoevolución on-policy mediante trayectorias de fallo para el alineamiento de seguridad de agentes

Resumen

Los agentes LLM que utilizan herramientas fallan a través de trayectorias en lugar de solo respuestas finales, ya que pueden ejecutar llamadas a herramientas inseguras, seguir instrucciones inyectadas, cumplir con solicitudes dañinas o rechazar en exceso tareas benignas a pesar de producir una respuesta aparentemente segura. Las señales de alineación de seguridad existentes son en gran medida a nivel de respuesta o fuera de política, y a menudo incurren en un compromiso entre seguridad y utilidad: mejorar la seguridad del agente tiene el costo de degradar el rendimiento de la tarea. Estas recompensas escasas y de objetivo único limitan severamente la usabilidad en el mundo real. Para cerrar esta brecha, proponemos FATE, un marco auto-evolutivo dentro de la política que transforma fallos puntuados por verificadores en supervisión de reparación sin demostraciones de expertos. Para cada fallo, la misma política propone candidatos de reparación, que luego son reevaluados por verificadores y filtrados según seguridad, utilidad, control de rechazo excesivo y validez de la trayectoria. Esta información densa a nivel de trayectoria se utiliza entonces como señal de supervisión para la auto-evolución del agente. Durante este proceso, introducimos además la Optimización de Políticas de Frontera de Pareto (PFPO), que combina un calentamiento supervisado con una optimización de políticas consciente de Pareto para preservar el compromiso entre seguridad y utilidad. Los experimentos en AgentDojo, AgentHarm y ATBench muestran que FATE mejora la seguridad en diferentes modelos y escalas, preservando al mismo tiempo un comportamiento útil. En comparación con líneas base sólidas, FATE reduce la tasa de éxito de ataque en un 33.5%, el cumplimiento perjudicial en un 82.6% y mejora el diagnóstico externo de seguridad de trayectoria en un 6.5%. Estos resultados sugieren que las trayectorias fallidas pueden proporcionar una supervisión de reparación estructurada para agentes auto-evolutivos más seguros.

English

Tool-using LLM agents fail through trajectories rather than only final responses, as they may execute unsafe tool calls, follow injected instructions, comply with harmful requests, or over-refuse benign tasks despite producing a seemingly safe answer. Existing safety-alignment signals are largely response-level or off-policy, and often incur a safety-utility trade-off: improving agent safety comes at the cost of degraded task performance. Such sparse and single-objective rewards severely limit real-world usability. To bridge this gap, we propose FATE, an on-policy self-evolving framework that transforms verifier-scored failures into repair supervision without expert demonstrations. For each failure, the same policy proposes repair candidates, which are then re-scored by verifiers and filtered across security, utility, over-refusal control, and trajectory validity. This dense trajectory-level information is then used as a supervision signal for agent self-evolution. During this process, we further introduce Pareto-Front Policy Optimization (PFPO), combining supervised warmup with Pareto-aware policy optimization to preserve safety-utility trade-offs. Experiments on AgentDojo, AgentHarm, and ATBench show that FATE improves safety across different models and scales while preserving useful behavior. Compared with strong baselines, FATE reduces attack success rate by 33.5%, harmful compliance by 82.6%, and improves external trajectory-safety diagnosis by 6.5%. These results suggest that failed trajectories can provide structured repair supervision for safer self-evolving agents.

Autoevolución on-policy mediante trayectorias de fallo para el alineamiento de seguridad de agentes

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

Resumen

Support