AdvEvo-MARL: Modellare la Sicurezza Internalizzata attraverso la Co-Evoluzione Adversarial nel Reinforcement Learning Multi-Agente
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
October 2, 2025
Autori: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI
Abstract
I sistemi multi-agente basati su LLM eccellono nella pianificazione, nell'uso di strumenti e nel coordinamento dei ruoli, ma la loro apertura e complessità di interazione li espongono anche a jailbreak, prompt-injection e collaborazione avversaria. Le difese esistenti si dividono in due approcci: (i) auto-verifica, che richiede a ciascun agente di filtrare preventivamente le istruzioni non sicure prima dell'esecuzione, e (ii) moduli guardia esterni che monitorano i comportamenti. Il primo approccio spesso non performa adeguatamente perché un singolo agente non ha sufficiente capacità di rilevare catene non sicure tra agenti e rischi indotti dalla delega; il secondo aumenta il sovraccarico del sistema e crea un singolo punto di fallimento: una volta compromesso, la sicurezza dell'intero sistema collassa, e l'aggiunta di più guardie peggiora costi e complessità. Per risolvere queste sfide, proponiamo AdvEvo-MARL, un framework di apprendimento per rinforzo multi-agente co-evolutivo che internalizza la sicurezza negli agenti di task. Piuttosto che affidarsi a guardie esterne, AdvEvo-MARL ottimizza congiuntamente gli attaccanti (che sintetizzano prompt di jailbreak in evoluzione) e i difensori (agenti di task addestrati sia a svolgere i loro compiti sia a resistere agli attacchi) in ambienti di apprendimento avversari. Per stabilizzare l'apprendimento e favorire la cooperazione, introduciamo una baseline pubblica per la stima del vantaggio: gli agenti all'interno dello stesso gruppo funzionale condividono una baseline di ritorno medio a livello di gruppo, consentendo aggiornamenti a varianza inferiore e una migliore coordinazione intra-gruppo. In scenari di attacco rappresentativi, AdvEvo-MARL mantiene costantemente il tasso di successo degli attacchi (ASR) al di sotto del 20%, mentre i baseline raggiungono fino al 38,33%, preservando e talvolta migliorando l'accuratezza dei task (fino a +3,67% nei task di ragionamento). Questi risultati dimostrano che sicurezza e utilità possono essere migliorate congiuntamente senza ricorrere a ulteriori agenti guardia o sovraccarichi di sistema aggiuntivi.
English
LLM-based multi-agent systems excel at planning, tool use, and role
coordination, but their openness and interaction complexity also expose them to
jailbreak, prompt-injection, and adversarial collaboration. Existing defenses
fall into two lines: (i) self-verification that asks each agent to pre-filter
unsafe instructions before execution, and (ii) external guard modules that
police behaviors. The former often underperforms because a standalone agent
lacks sufficient capacity to detect cross-agent unsafe chains and
delegation-induced risks; the latter increases system overhead and creates a
single-point-of-failure-once compromised, system-wide safety collapses, and
adding more guards worsens cost and complexity. To solve these challenges, we
propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning
framework that internalizes safety into task agents. Rather than relying on
external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize
evolving jailbreak prompts) and defenders (task agents trained to both
accomplish their duties and resist attacks) in adversarial learning
environments. To stabilize learning and foster cooperation, we introduce a
public baseline for advantage estimation: agents within the same functional
group share a group-level mean-return baseline, enabling lower-variance updates
and stronger intra-group coordination. Across representative attack scenarios,
AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas
baselines reach up to 38.33%, while preserving-and sometimes improving-task
accuracy (up to +3.67% on reasoning tasks). These results show that safety and
utility can be jointly improved without relying on extra guard agents or added
system overhead.