AdvEvo-MARL: Gestaltung internalisierter Sicherheit durch adversarische Ko-Evolution im Multi-Agenten-Reinforcement-Learning
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
October 2, 2025
papers.authors: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI
papers.abstract
LLM-basierte Multi-Agenten-Systeme zeichnen sich durch ihre Fähigkeiten in Planung, Werkzeugnutzung und Rollenkoordination aus, doch ihre Offenheit und Interaktionskomplexität machen sie auch anfällig für Jailbreaks, Prompt-Injections und adversarische Kollaborationen. Bestehende Verteidigungsansätze lassen sich in zwei Kategorien einteilen: (i) Selbstverifikation, bei der jeder Agent unsichere Anweisungen vor der Ausführung vorfiltert, und (ii) externe Schutzmodule, die das Verhalten überwachen. Ersteres schneidet oft schlecht ab, da ein einzelner Agent nicht über ausreichende Kapazitäten verfügt, um übergreifende unsichere Handlungsketten und durch Delegation verursachte Risiken zu erkennen; Letzteres erhöht den Systemoverhead und schafft einen Single-Point-of-Failure – sobald dieser kompromittiert ist, bricht die Systemsicherheit vollständig zusammen, und das Hinzufügen weiterer Schutzmodule verschärft Kosten und Komplexität. Um diese Herausforderungen zu lösen, schlagen wir AdvEvo-MARL vor, ein ko-evolutionäres Multi-Agenten-Verstärkungslernframework, das Sicherheit in die Aufgabenagenten internalisiert. Anstatt auf externe Schutzmodule zu setzen, optimiert AdvEvo-MARL Angreifer (die sich entwickelnde Jailbreak-Prompts synthetisieren) und Verteidiger (Aufgabenagenten, die darauf trainiert sind, sowohl ihre Aufgaben zu erfüllen als auch Angriffen zu widerstehen) gemeinsam in adversarischen Lernumgebungen. Um das Lernen zu stabilisieren und die Zusammenarbeit zu fördern, führen wir eine öffentliche Baseline für die Vorteilsschätzung ein: Agenten innerhalb derselben Funktionsgruppe teilen eine gruppenbasierte Mittelwert-Baseline, was Updates mit geringerer Varianz und eine stärkere Koordination innerhalb der Gruppe ermöglicht. In repräsentativen Angriffsszenarien hält AdvEvo-MARL die Angriffserfolgsrate (ASR) durchgängig unter 20 %, während Baselines bis zu 38,33 % erreichen, und bewahrt – oder verbessert sogar – die Aufgabengenauigkeit (bis zu +3,67 % bei logischen Aufgaben). Diese Ergebnisse zeigen, dass Sicherheit und Nutzen gemeinsam verbessert werden können, ohne auf zusätzliche Schutzagenten oder erhöhten Systemoverhead angewiesen zu sein.
English
LLM-based multi-agent systems excel at planning, tool use, and role
coordination, but their openness and interaction complexity also expose them to
jailbreak, prompt-injection, and adversarial collaboration. Existing defenses
fall into two lines: (i) self-verification that asks each agent to pre-filter
unsafe instructions before execution, and (ii) external guard modules that
police behaviors. The former often underperforms because a standalone agent
lacks sufficient capacity to detect cross-agent unsafe chains and
delegation-induced risks; the latter increases system overhead and creates a
single-point-of-failure-once compromised, system-wide safety collapses, and
adding more guards worsens cost and complexity. To solve these challenges, we
propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning
framework that internalizes safety into task agents. Rather than relying on
external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize
evolving jailbreak prompts) and defenders (task agents trained to both
accomplish their duties and resist attacks) in adversarial learning
environments. To stabilize learning and foster cooperation, we introduce a
public baseline for advantage estimation: agents within the same functional
group share a group-level mean-return baseline, enabling lower-variance updates
and stronger intra-group coordination. Across representative attack scenarios,
AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas
baselines reach up to 38.33%, while preserving-and sometimes improving-task
accuracy (up to +3.67% on reasoning tasks). These results show that safety and
utility can be jointly improved without relying on extra guard agents or added
system overhead.