ChatPaper.aiChatPaper

DecodingTrust-Agent Platform (DTap): Een controleerbaar en interactief red-teaming platform voor AI-agenten

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

May 6, 2026
Auteurs: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li
cs.AI

Samenvatting

AI-agenten worden steeds vaker ingezet in uiteenlopende domeinen om complexe workflows te automatiseren via langetermijnacties met hoge inzet. Vanwege hun grote capaciteit en flexibiliteit brengen dergelijke agenten aanzienlijke beveiligings- en veiligheidsrisico's met zich mee. Een groeiend aantal incidenten in de praktijk toont aan dat tegenstanders agenten gemakkelijk kunnen manipuleren om schadelijke handelingen uit te voeren, zoals het lekken van API-sleutels, het verwijderen van gebruikersgegevens of het initiëren van ongeautoriseerde transacties. Het evalueren van agentbeveiliging is inherent uitdagend, omdat agenten opereren in dynamische, onbetrouwbare omgevingen met externe tools, heterogene gegevensbronnen en frequente gebruikersinteracties. Realistische, controleerbare en reproduceerbare omgevingen voor grootschalige risicobeoordeling blijven echter grotendeels onderbelicht. Om deze leemte aan te vullen introduceren we het DecodingTrust-Agent Platform (DTap), het eerste controleerbare en interactieve red-teamingplatform voor AI-agenten, dat veertien realistische domeinen en meer dan vijftig simulatieomgevingen bestrijkt die veelgebruikte systemen zoals Google Workspace, Paypal en Slack nabootsen. Om de risicobeoordeling van agenten in DTap te schalen, stellen we verder DTap-Red voor, de eerste autonome red-teamingagent die systematisch diverse injectievectoren (bijv. prompt, tool, vaardigheid, omgeving, combinaties) onderzoekt en autonoom effectieve aanvalsstrategieën ontdekt die zijn afgestemd op uiteenlopende kwaadaardige doelen. Met behulp van DTap-Red hebben we DTap-Bench samengesteld, een grootschalige red-teamingdataset met hoogwaardige instanties uit verschillende domeinen, elk gekoppeld aan een verifieerbare rechter om aanvalsresultaten automatisch te valideren. Via DTap voeren we grootschalige evaluaties uit van populaire AI-agenten gebouwd op verschillende backbone-modellen, die beveiligingsbeleid, risicocategorieën en aanvalsstrategieën omvatten, wat systematische kwetsbaarheidspatronen aan het licht brengt en waardevolle inzichten biedt voor het ontwikkelen van veilige agenten van de volgende generatie.
English
AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.
PDF191May 12, 2026