AdvEvo-MARL: Формирование внутренней безопасности посредством состязательной коэволюции в многопользовательском обучении с подкреплением
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning
October 2, 2025
Авторы: Zhenyu Pan, Yiting Zhang, Zhuo Liu, Yolo Yunlong Tang, Zeliang Zhang, Haozheng Luo, Yuwei Han, Jianshu Zhang, Dennis Wu, Hong-Yu Chen, Haoran Lu, Haoyang Fang, Manling Li, Chenliang Xu, Philip S. Yu, Han Liu
cs.AI
Аннотация
Многоагентные системы на основе LLM преуспевают в планировании, использовании инструментов и координации ролей, но их открытость и сложность взаимодействия также делают их уязвимыми к взлому, инъекциям промптов и враждебному сотрудничеству. Существующие методы защиты делятся на два направления: (i) самопроверка, при которой каждый агент предварительно фильтрует небезопасные инструкции перед выполнением, и (ii) внешние защитные модули, которые контролируют поведение. Первый подход часто оказывается недостаточно эффективным, поскольку отдельный агент не обладает достаточными возможностями для выявления небезопасных цепочек взаимодействий между агентами и рисков, связанных с делегированием; второй подход увеличивает нагрузку на систему и создает единую точку отказа — при компрометации защитного модуля безопасность всей системы нарушается, а добавление большего числа защитников усугубляет затраты и сложность. Для решения этих проблем мы предлагаем AdvEvo-MARL, коэволюционную многоагентную систему обучения с подкреплением, которая интегрирует безопасность в задачи агентов. Вместо использования внешних защитников AdvEvo-MARL совместно оптимизирует атакующих (которые генерируют развивающиеся промпты для взлома) и защитников (агентов, обученных как выполнять свои задачи, так и противостоять атакам) в условиях враждебного обучения. Для стабилизации обучения и укрепления сотрудничества мы вводим публичный базис для оценки преимуществ: агенты в рамках одной функциональной группы используют общий базис среднего возврата на уровне группы, что позволяет снизить дисперсию обновлений и усилить координацию внутри группы. В различных сценариях атак AdvEvo-MARL стабильно удерживает уровень успешности атак (ASR) ниже 20%, тогда как базовые методы достигают 38,33%, при этом сохраняя — а иногда и улучшая — точность выполнения задач (до +3,67% в задачах на логическое мышление). Эти результаты показывают, что безопасность и полезность могут быть улучшены совместно без использования дополнительных защитных агентов или увеличения нагрузки на систему.
English
LLM-based multi-agent systems excel at planning, tool use, and role
coordination, but their openness and interaction complexity also expose them to
jailbreak, prompt-injection, and adversarial collaboration. Existing defenses
fall into two lines: (i) self-verification that asks each agent to pre-filter
unsafe instructions before execution, and (ii) external guard modules that
police behaviors. The former often underperforms because a standalone agent
lacks sufficient capacity to detect cross-agent unsafe chains and
delegation-induced risks; the latter increases system overhead and creates a
single-point-of-failure-once compromised, system-wide safety collapses, and
adding more guards worsens cost and complexity. To solve these challenges, we
propose AdvEvo-MARL, a co-evolutionary multi-agent reinforcement learning
framework that internalizes safety into task agents. Rather than relying on
external guards, AdvEvo-MARL jointly optimizes attackers (which synthesize
evolving jailbreak prompts) and defenders (task agents trained to both
accomplish their duties and resist attacks) in adversarial learning
environments. To stabilize learning and foster cooperation, we introduce a
public baseline for advantage estimation: agents within the same functional
group share a group-level mean-return baseline, enabling lower-variance updates
and stronger intra-group coordination. Across representative attack scenarios,
AdvEvo-MARL consistently keeps attack-success rate (ASR) below 20%, whereas
baselines reach up to 38.33%, while preserving-and sometimes improving-task
accuracy (up to +3.67% on reasoning tasks). These results show that safety and
utility can be jointly improved without relying on extra guard agents or added
system overhead.