ChatPaper.aiChatPaper

DecodingTrust-Agent-Plattform (DTap): Eine steuerbare und interaktive Red-Teaming-Plattform für KI-Agenten

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

May 6, 2026
Autoren: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li
cs.AI

Zusammenfassung

KI-Agenten werden zunehmend in verschiedenen Bereichen eingesetzt, um komplexe Arbeitsabläufe durch langfristige und risikoreiche Aktionsausführungen zu automatisieren. Aufgrund ihrer hohen Leistungsfähigkeit und Flexibilität werfen solche Agenten erhebliche Sicherheitsbedenken auf. Eine wachsende Zahl realer Vorfälle hat gezeigt, dass Angreifer Agenten leicht dazu manipulieren können, schädliche Aktionen auszuführen, wie das Offenlegen von API-Schlüsseln, das Löschen von Benutzerdaten oder das Auslösen unbefugter Transaktionen. Die Bewertung der Agentensicherheit ist von Natur aus herausfordernd, da Agenten in dynamischen, nicht vertrauenswürdigen Umgebungen operieren, die externe Werkzeuge, heterogene Datenquellen und häufige Benutzerinteraktionen umfassen. Allerdings sind realistische, kontrollierbare und reproduzierbare Umgebungen für groß angelegte Risikobewertungen weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir die DecodingTrust-Agent-Plattform (DTap) vor, die erste kontrollierbare und interaktive Red-Teaming-Plattform für KI-Agenten, die 14 reale Bereiche und über 50 Simulationsumgebungen umfasst, welche weit verbreitete Systeme wie Google Workspace, Paypal und Slack nachbilden. Um die Risikobewertung von Agenten in DTap zu skalieren, schlagen wir weiterhin DTap-Red vor, den ersten autonomen Red-Teaming-Agenten, der systematisch verschiedene Injektionsvektoren (z. B. Prompt, Werkzeug, Fähigkeit, Umgebung, Kombinationen) erkundet und autonom effektive Angriffsstrategien entdeckt, die auf unterschiedliche schädliche Ziele zugeschnitten sind. Mit DTap-Red erstellen wir DTap-Bench, einen groß angelegten Red-Teaming-Datensatz, der hochwertige Instanzen aus verschiedenen Bereichen umfasst, jede gepaart mit einem überprüfbaren Bewerter, um Angriffsergebnisse automatisch zu validieren. Durch DTap führen wir groß angelegte Bewertungen beliebter KI-Agenten durch, die auf verschiedenen Basis-Modellen aufbauen, und decken dabei Sicherheitsrichtlinien, Risikokategorien und Angriffsstrategien ab, wodurch systematische Schwachstellenmuster aufgedeckt und wertvolle Erkenntnisse für die Entwicklung sicherer Agenten der nächsten Generation gewonnen werden.
English
AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.
PDF191May 12, 2026