ChatPaper.aiChatPaper

AdvEvo-MARL: Het vormgeven van geïnternaliseerde veiligheid door middel van adversariële co-evolutie in multi-agent reinforcement learning

AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

October 2, 2025
Auteurs: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI

Samenvatting

LLM-gebaseerde multi-agent systemen blinken uit in planning, gereedschapsgebruik en rolcoördinatie, maar hun openheid en interactiecomplexiteit maken ze ook kwetsbaar voor jailbreak, prompt-injectie en adversariële samenwerking. Bestaande verdedigingen vallen uiteen in twee benaderingen: (i) zelfverificatie waarbij elke agent onveilige instructies vooraf filtert voordat ze worden uitgevoerd, en (ii) externe bewakingsmodules die gedrag controleren. De eerste benadering presteert vaak ondermaats omdat een individuele agent onvoldoende capaciteit heeft om onveilige ketens tussen agents en risico's door delegatie te detecteren; de tweede benadering verhoogt de systeemoverhead en creëert een single-point-of-failure—eenmaal gecompromitteerd, stort de systeemveiligheid in, en het toevoegen van meer bewakers verergert de kosten en complexiteit. Om deze uitdagingen op te lossen, stellen we AdvEvo-MARL voor, een co-evolutionair multi-agent reinforcement learning-framework dat veiligheid internaliseert in taakagents. In plaats van te vertrouwen op externe bewakers, optimaliseert AdvEvo-MARL zowel aanvallers (die evoluerende jailbreak-prompts synthetiseren) als verdedigers (taakagents die zijn getraind om zowel hun taken uit te voeren als aanvallen te weerstaan) in adversariële leeromgevingen. Om het leren te stabiliseren en samenwerking te bevorderen, introduceren we een publieke basislijn voor voordeelschatting: agents binnen dezelfde functionele groep delen een groepsniveau gemiddelde-opbrengst basislijn, waardoor updates met lagere variantie en sterkere intra-groep coördinatie mogelijk worden. In representatieve aanvalsscenario's houdt AdvEvo-MARL consistent het aanvalsuccespercentage (ASR) onder de 20%, terwijl basislijnen tot 38,33% bereiken, terwijl de taaknauwkeurigheid behouden blijft—en soms verbetert (tot +3,67% bij redeneertaken). Deze resultaten tonen aan dat veiligheid en functionaliteit gezamenlijk kunnen worden verbeterd zonder te vertrouwen op extra bewakingsagents of toegevoegde systeemoverhead.
English
LLM-based multi-agent systems excel at planning, tool use, and role coordination, but their openness and interaction complexity also expose them to jailbreak, prompt-injection, and adversarial collaboration. Existing defenses fall into two lines: (i) self-verification that asks each agent to pre-filter unsafe instructions before execution, and (ii) external guard modules that police behaviors. The former often underperforms because a standalone agent lacks sufficient capacity to detect cross-agent unsafe chains and delegation-induced risks; the latter increases system overhead and creates a single-point-of-failure-once compromised, system-wide safety collapses, and adding more guards worsens cost and complexity. To solve these challenges, we propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning framework that internalizes safety into task agents. Rather than relying on external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize evolving jailbreak prompts) and defenders (task agents trained to both accomplish their duties and resist attacks) in adversarial learning environments. To stabilize learning and foster cooperation, we introduce a public baseline for advantage estimation: agents within the same functional group share a group-level mean-return baseline, enabling lower-variance updates and stronger intra-group coordination. Across representative attack scenarios, AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas baselines reach up to 38.33%, while preserving-and sometimes improving-task accuracy (up to +3.67% on reasoning tasks). These results show that safety and utility can be jointly improved without relying on extra guard agents or added system overhead.
PDF12October 7, 2025