ChatPaper.aiChatPaper

AdvEvo-MARL : Façonner la sécurité internalisée par co-évolution antagoniste dans l'apprentissage par renforcement multi-agent

AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

October 2, 2025
papers.authors: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI

papers.abstract

Les systèmes multi-agents basés sur LLM excellent dans la planification, l'utilisation d'outils et la coordination des rôles, mais leur ouverture et leur complexité d'interaction les exposent également aux risques de jailbreak, d'injection de prompts et de collaboration adversaire. Les défenses existantes se divisent en deux approches : (i) l'auto-vérification, qui demande à chaque agent de pré-filtrer les instructions dangereuses avant leur exécution, et (ii) les modules de surveillance externes qui contrôlent les comportements. La première approche sous-performe souvent car un agent isolé manque de capacité pour détecter les chaînes dangereuses inter-agents et les risques induits par la délégation ; la seconde augmente la surcharge du système et crée un point de défaillance unique—une fois compromis, la sécurité globale s'effondre, et l'ajout de plus de gardes aggrave les coûts et la complexité. Pour résoudre ces défis, nous proposons AdvEvo-MARL, un cadre d'apprentissage par renforcement multi-agent co-évolutif qui intègre la sécurité dans les agents de tâche. Plutôt que de s'appuyer sur des gardes externes, AdvEvo-MARL optimise conjointement les attaquants (qui synthétisent des prompts de jailbreak évolutifs) et les défenseurs (agents de tâche entraînés à accomplir leurs missions tout en résistant aux attaques) dans des environnements d'apprentissage adversaires. Pour stabiliser l'apprentissage et favoriser la coopération, nous introduisons une base publique pour l'estimation de l'avantage : les agents d'un même groupe fonctionnel partagent une base de retour moyen au niveau du groupe, permettant des mises à jour à plus faible variance et une meilleure coordination intra-groupe. Dans divers scénarios d'attaque représentatifs, AdvEvo-MARL maintient systématiquement le taux de réussite des attaques (ASR) en dessous de 20 %, tandis que les approches de référence atteignent jusqu'à 38,33 %, tout en préservant—et parfois en améliorant—la précision des tâches (jusqu'à +3,67 % sur les tâches de raisonnement). Ces résultats montrent que la sécurité et l'utilité peuvent être améliorées conjointement sans recourir à des agents de garde supplémentaires ni augmenter la surcharge du système.
English
LLM-based multi-agent systems excel at planning, tool use, and role coordination, but their openness and interaction complexity also expose them to jailbreak, prompt-injection, and adversarial collaboration. Existing defenses fall into two lines: (i) self-verification that asks each agent to pre-filter unsafe instructions before execution, and (ii) external guard modules that police behaviors. The former often underperforms because a standalone agent lacks sufficient capacity to detect cross-agent unsafe chains and delegation-induced risks; the latter increases system overhead and creates a single-point-of-failure-once compromised, system-wide safety collapses, and adding more guards worsens cost and complexity. To solve these challenges, we propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning framework that internalizes safety into task agents. Rather than relying on external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize evolving jailbreak prompts) and defenders (task agents trained to both accomplish their duties and resist attacks) in adversarial learning environments. To stabilize learning and foster cooperation, we introduce a public baseline for advantage estimation: agents within the same functional group share a group-level mean-return baseline, enabling lower-variance updates and stronger intra-group coordination. Across representative attack scenarios, AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas baselines reach up to 38.33%, while preserving-and sometimes improving-task accuracy (up to +3.67% on reasoning tasks). These results show that safety and utility can be jointly improved without relying on extra guard agents or added system overhead.
PDF12October 7, 2025