AdvEvo-MARL: Moldeando la Seguridad Internalizada mediante Co-Evolución Adversarial en Aprendizaje por Refuerzo Multiagente
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
October 2, 2025
Autores: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI
Resumen
Los sistemas multiagente basados en LLM destacan en planificación, uso de herramientas y coordinación de roles, pero su apertura y complejidad de interacción también los exponen a jailbreak, inyección de prompts y colaboración adversaria. Las defensas existentes se dividen en dos enfoques: (i) autoverificación, que solicita a cada agente que filtre previamente instrucciones inseguras antes de su ejecución, y (ii) módulos de guardia externos que supervisan comportamientos. El primero suele tener un rendimiento inferior porque un agente independiente carece de la capacidad suficiente para detectar cadenas inseguras entre agentes y riesgos inducidos por delegación; el segundo aumenta la sobrecarga del sistema y crea un punto único de fallo: una vez comprometido, la seguridad del sistema colapsa, y agregar más guardias empeora el costo y la complejidad. Para resolver estos desafíos, proponemos AdvEvo-MARL, un marco de aprendizaje por refuerzo multiagente coevolutivo que internaliza la seguridad en los agentes de tareas. En lugar de depender de guardias externos, AdvEvo-MARL optimiza conjuntamente atacantes (que sintetizan prompts de jailbreak en evolución) y defensores (agentes de tareas entrenados tanto para cumplir sus deberes como para resistir ataques) en entornos de aprendizaje adversarios. Para estabilizar el aprendizaje y fomentar la cooperación, introducimos una línea base pública para la estimación de ventajas: los agentes dentro del mismo grupo funcional comparten una línea base de retorno medio a nivel de grupo, permitiendo actualizaciones de menor varianza y una coordinación intragrupo más fuerte. En escenarios de ataque representativos, AdvEvo-MARL mantiene consistentemente la tasa de éxito de ataque (ASR) por debajo del 20%, mientras que los enfoques de referencia alcanzan hasta el 38.33%, preservando—y en ocasiones mejorando—la precisión de las tareas (hasta +3.67% en tareas de razonamiento). Estos resultados muestran que la seguridad y la utilidad pueden mejorarse conjuntamente sin depender de agentes de guardia adicionales ni de una mayor sobrecarga del sistema.
English
LLM-based multi-agent systems excel at planning, tool use, and role
coordination, but their openness and interaction complexity also expose them to
jailbreak, prompt-injection, and adversarial collaboration. Existing defenses
fall into two lines: (i) self-verification that asks each agent to pre-filter
unsafe instructions before execution, and (ii) external guard modules that
police behaviors. The former often underperforms because a standalone agent
lacks sufficient capacity to detect cross-agent unsafe chains and
delegation-induced risks; the latter increases system overhead and creates a
single-point-of-failure-once compromised, system-wide safety collapses, and
adding more guards worsens cost and complexity. To solve these challenges, we
propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning
framework that internalizes safety into task agents. Rather than relying on
external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize
evolving jailbreak prompts) and defenders (task agents trained to both
accomplish their duties and resist attacks) in adversarial learning
environments. To stabilize learning and foster cooperation, we introduce a
public baseline for advantage estimation: agents within the same functional
group share a group-level mean-return baseline, enabling lower-variance updates
and stronger intra-group coordination. Across representative attack scenarios,
AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas
baselines reach up to 38.33%, while preserving-and sometimes improving-task
accuracy (up to +3.67% on reasoning tasks). These results show that safety and
utility can be jointly improved without relying on extra guard agents or added
system overhead.