ChatPaper.aiChatPaper

AdvEvo-MARL:マルチエージェント強化学習における敵対的共進化を通じた内在的安全性の形成

AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning

October 2, 2025
著者: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI

要旨

LLMベースのマルチエージェントシステムは、計画立案、ツール使用、役割調整において優れた性能を発揮するが、その開放性と相互作用の複雑さから、ジャイルブレイク、プロンプトインジェクション、敵対的協調といったリスクにさらされる。既存の防御手法は大きく二つに分類される:(i) 各エージェントが実行前に安全でない指示を事前にフィルタリングする自己検証、(ii) 行動を監視する外部ガードモジュール。前者は、単独のエージェントがエージェント間の安全でない連鎖や委任に起因するリスクを検出する能力が不十分であるため、しばしば性能が低い。後者はシステムのオーバーヘッドを増加させ、一度侵害されるとシステム全体の安全性が崩壊する単一障害点を生み出し、さらにガードを追加するとコストと複雑さが悪化する。これらの課題を解決するため、我々はAdvEvo-MARLを提案する。これは、安全性をタスクエージェントに内在化する共進化的マルチエージェント強化学習フレームワークである。AdvEvo-MARLは、外部ガードに依存するのではなく、敵対的学習環境において、進化するジャイルブレイクプロンプトを合成する攻撃者と、自身の役割を果たしつつ攻撃に抵抗するように訓練された防御者(タスクエージェント)を同時に最適化する。学習を安定させ、協力を促進するため、我々はアドバンテージ推定のための公開ベースラインを導入する:同じ機能グループ内のエージェントはグループレベルの平均リターンベースラインを共有し、低分散の更新とグループ内の強力な協調を可能にする。代表的な攻撃シナリオにおいて、AdvEvo-MARLは攻撃成功率(ASR)を一貫して20%以下に抑え、ベースラインが最大38.33%に達するのに対し、タスク精度を維持し、場合によっては向上させた(推論タスクで最大+3.67%)。これらの結果は、追加のガードエージェントやシステムオーバーヘッドに頼ることなく、安全性と有用性を同時に向上させることが可能であることを示している。
English
LLM-based multi-agent systems excel at planning, tool use, and role coordination, but their openness and interaction complexity also expose them to jailbreak, prompt-injection, and adversarial collaboration. Existing defenses fall into two lines: (i) self-verification that asks each agent to pre-filter unsafe instructions before execution, and (ii) external guard modules that police behaviors. The former often underperforms because a standalone agent lacks sufficient capacity to detect cross-agent unsafe chains and delegation-induced risks; the latter increases system overhead and creates a single-point-of-failure-once compromised, system-wide safety collapses, and adding more guards worsens cost and complexity. To solve these challenges, we propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning framework that internalizes safety into task agents. Rather than relying on external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize evolving jailbreak prompts) and defenders (task agents trained to both accomplish their duties and resist attacks) in adversarial learning environments. To stabilize learning and foster cooperation, we introduce a public baseline for advantage estimation: agents within the same functional group share a group-level mean-return baseline, enabling lower-variance updates and stronger intra-group coordination. Across representative attack scenarios, AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas baselines reach up to 38.33%, while preserving-and sometimes improving-task accuracy (up to +3.67% on reasoning tasks). These results show that safety and utility can be jointly improved without relying on extra guard agents or added system overhead.
PDF12October 7, 2025