DecodingTrust-Agent Platform (DTap): контролируемая и интерактивная платформа для тестирования методом красной команды для AI-агентов.
DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents
May 6, 2026
Авторы: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li
cs.AI
Аннотация
Агенты ИИ всё чаще развёртываются в различных областях для автоматизации сложных рабочих процессов за счёт выполнения долгосрочных и высокорисковых действий. Благодаря своей высокой производительности и гибкости такие агенты вызывают значительные опасения в отношении безопасности и надёжности. Растущее число реальных инцидентов показывает, что злоумышленники могут легко манипулировать агентами, вынуждая их совершать вредоносные действия, такие как утечка ключей API, удаление пользовательских данных или проведение несанкционированных транзакций. Оценка безопасности агентов по своей сути сложна, поскольку они функционируют в динамичных, недоверенных средах, включающих внешние инструменты, разнородные источники данных и частые взаимодействия с пользователями. Однако реалистичные, контролируемые и воспроизводимые среды для крупномасштабной оценки рисков остаются малоизученными. Для устранения этого пробела мы представляем DecodingTrust-Agent Platform (DTap) — первую контролируемую и интерактивную платформу для тестирования методом красной команды (red-teaming) агентов ИИ, охватывающую 14 реальных областей и более 50 сред моделирования, которые воспроизводят широко используемые системы, такие как Google Workspace, Paypal и Slack. Чтобы масштабировать оценку рисков агентов в DTap, мы дополнительно предлагаем DTap-Red — первого автономного агента для красного тестирования, который систематически исследует различные векторы внедрения (например, промпт, инструмент, навык, среду, их комбинации) и самостоятельно обнаруживает эффективные стратегии атак, адаптированные к различным вредоносным целям. С помощью DTap-Red мы создаём DTap-Bench — крупномасштабный набор данных для красного тестирования, содержащий высококачественные примеры из разных областей, каждый из которых снабжён проверяемым судьёй для автоматической валидации результатов атак. С использованием DTap мы проводим крупномасштабную оценку популярных агентов ИИ, построенных на различных базовых моделях, охватывающую политики безопасности, категории рисков и стратегии атак, что выявляет систематические шаблоны уязвимостей и даёт ценные идеи для разработки безопасных агентов следующего поколения.
English
AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.