ChatPaper.aiChatPaper

DecodingTrust-Agent Platform (DTap) : Une plateforme de red-teaming contrôlable et interactive pour les agents IA

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

May 6, 2026
Auteurs: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li
cs.AI

Résumé

Les agents IA sont de plus en plus déployés dans divers domaines pour automatiser des workflows complexes grâce à des exécutions d’actions sur des horizons temporels longs et à forts enjeux. En raison de leurs capacités et de leur flexibilité élevées, ces agents suscitent des préoccupations importantes en matière de sécurité et de sûreté. Un nombre croissant d’incidents réels a montré que des adversaires peuvent facilement manipuler les agents pour qu’ils effectuent des actions nuisibles, telles que la fuite de clés API, la suppression de données utilisateur ou l’initiation de transactions non autorisées. Évaluer la sécurité des agents est intrinsèquement difficile, car ceux-ci opèrent dans des environnements dynamiques et non fiables impliquant des outils externes, des sources de données hétérogènes et des interactions fréquentes avec les utilisateurs. Cependant, des environnements réalistes, contrôlables et reproductibles pour une évaluation des risques à grande échelle restent largement sous-explorés. Pour combler cette lacune, nous présentons la plateforme DecodingTrust-Agent (DTap), la première plateforme de red-teaming contrôlable et interactive pour les agents IA, couvrant 14 domaines réels et plus de 50 environnements de simulation qui reproduisent des systèmes largement utilisés tels que Google Workspace, PayPal et Slack. Pour amplifier l’évaluation des risques des agents dans DTap, nous proposons en outre DTap-Red, le premier agent de red-teaming autonome qui explore systématiquement divers vecteurs d’injection (par exemple, invite, outil, compétence, environnement, combinaisons) et découvre de manière autonome des stratégies d’attaque efficaces adaptées à divers objectifs malveillants. En utilisant DTap-Red, nous constituons DTap-Bench, un ensemble de données de red-teaming à grande échelle comprenant des instances de haute qualité dans divers domaines, chacune associée à un juge vérifiable pour valider automatiquement les résultats des attaques. Grâce à DTap, nous menons des évaluations à grande échelle d’agents IA populaires construits sur différents modèles de base, couvrant les politiques de sécurité, les catégories de risques et les stratégies d’attaque, révélant des schémas de vulnérabilité systématiques et fournissant des informations précieuses pour le développement d’agents de nouvelle génération sécurisés.
English
AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.
PDF191May 12, 2026