AdvEvo-MARL: Moldando a Segurança Internalizada por meio da Coevolução Adversarial no Aprendizado por Reforço Multiagente
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
October 2, 2025
Autores: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI
Resumo
Sistemas multiagentes baseados em LLMs se destacam em planejamento, uso de ferramentas e coordenação de papéis, mas sua abertura e complexidade de interação também os expõem a jailbreaks, injeção de prompts e colaboração adversária. As defesas existentes se dividem em duas abordagens: (i) autoverificação, que solicita que cada agente pré-filtre instruções inseguras antes da execução, e (ii) módulos de guarda externos que monitoram comportamentos. A primeira frequentemente tem desempenho insuficiente porque um agente isolado carece de capacidade para detectar cadeias inseguras entre agentes e riscos induzidos por delegação; a segunda aumenta a sobrecarga do sistema e cria um ponto único de falha — uma vez comprometido, a segurança de todo o sistema colapsa, e adicionar mais guardas piora custo e complexidade. Para resolver esses desafios, propomos o AdvEvo-MARL, uma estrutura de aprendizado por reforço multiagente co-evolutiva que internaliza a segurança nos agentes de tarefa. Em vez de depender de guardas externos, o AdvEvo-MARL otimiza conjuntamente atacantes (que sintetizam prompts de jailbreak em evolução) e defensores (agentes de tarefa treinados tanto para cumprir suas funções quanto para resistir a ataques) em ambientes de aprendizado adversário. Para estabilizar o aprendizado e promover a cooperação, introduzimos uma linha de base pública para estimativa de vantagem: agentes dentro do mesmo grupo funcional compartilham uma linha de base de retorno médio em nível de grupo, permitindo atualizações com menor variância e uma coordenação intra-grupo mais forte. Em cenários de ataque representativos, o AdvEvo-MARL mantém consistentemente a taxa de sucesso de ataque (ASR) abaixo de 20%, enquanto as abordagens de referência atingem até 38,33%, preservando — e às vezes melhorando — a precisão das tarefas (até +3,67% em tarefas de raciocínio). Esses resultados mostram que segurança e utilidade podem ser aprimoradas conjuntamente sem depender de agentes de guarda extras ou sobrecarga adicional do sistema.
English
LLM-based multi-agent systems excel at planning, tool use, and role
coordination, but their openness and interaction complexity also expose them to
jailbreak, prompt-injection, and adversarial collaboration. Existing defenses
fall into two lines: (i) self-verification that asks each agent to pre-filter
unsafe instructions before execution, and (ii) external guard modules that
police behaviors. The former often underperforms because a standalone agent
lacks sufficient capacity to detect cross-agent unsafe chains and
delegation-induced risks; the latter increases system overhead and creates a
single-point-of-failure-once compromised, system-wide safety collapses, and
adding more guards worsens cost and complexity. To solve these challenges, we
propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning
framework that internalizes safety into task agents. Rather than relying on
external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize
evolving jailbreak prompts) and defenders (task agents trained to both
accomplish their duties and resist attacks) in adversarial learning
environments. To stabilize learning and foster cooperation, we introduce a
public baseline for advantage estimation: agents within the same functional
group share a group-level mean-return baseline, enabling lower-variance updates
and stronger intra-group coordination. Across representative attack scenarios,
AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas
baselines reach up to 38.33%, while preserving-and sometimes improving-task
accuracy (up to +3.67% on reasoning tasks). These results show that safety and
utility can be jointly improved without relying on extra guard agents or added
system overhead.