ChatPaper.aiChatPaper

Plataforma DTap (DecodingTrust-Agent): Una Plataforma Controlable e Interactiva para Pruebas de Resistencia en Agentes de IA

DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

May 6, 2026
Autores: Zhaorun Chen, Xun Liu, Haibo Tong, Chengquan Guo, Yuzhou Nie, Jiawei Zhang, Mintong Kang, Chejian Xu, Qichang Liu, Xiaogeng Liu, Tianneng Shi, Chaowei Xiao, Sanmi Koyejo, Percy Liang, Wenbo Guo, Dawn Song, Bo Li
cs.AI

Resumen

Los agentes de IA se despliegan cada vez más en diversos dominios para automatizar flujos de trabajo complejos mediante ejecuciones de acciones a largo plazo y de alto riesgo. Debido a su alta capacidad y flexibilidad, estos agentes plantean importantes preocupaciones de seguridad y protección. Un número creciente de incidentes en el mundo real ha demostrado que los adversarios pueden manipular fácilmente a los agentes para que realicen acciones dañinas, como filtrar claves de API, eliminar datos de usuarios o iniciar transacciones no autorizadas. Evaluar la seguridad de los agentes es intrínsecamente desafiante, ya que operan en entornos dinámicos y no confiables que involucran herramientas externas, fuentes de datos heterogéneas e interacciones frecuentes con usuarios. Sin embargo, los entornos realistas, controlables y reproducibles para la evaluación de riesgos a gran escala siguen siendo poco explorados. Para abordar esta brecha, presentamos la Plataforma DecodingTrust-Agent (DTap), la primera plataforma de pruebas de penetración controlable e interactiva para agentes de IA, que abarca 14 dominios del mundo real y más de 50 entornos de simulación que replican sistemas ampliamente utilizados como Google Workspace, PayPal y Slack. Para escalar la evaluación de riesgos de los agentes en DTap, proponemos además DTap-Red, el primer agente autónomo de pruebas de penetración que explora sistemáticamente diversos vectores de inyección (por ejemplo, indicaciones, herramientas, habilidades, entornos, combinaciones) y descubre autónomamente estrategias de ataque efectivas adaptadas a distintos objetivos maliciosos. Utilizando DTap-Red, recopilamos DTap-Bench, un conjunto de datos de pruebas de penetración a gran escala que incluye instancias de alta calidad en diversos dominios, cada una emparejada con un evaluador verificable para validar automáticamente los resultados de los ataques. A través de DTap, realizamos evaluaciones a gran escala de agentes de IA populares basados en varios modelos principales, abarcando políticas de seguridad, categorías de riesgo y estrategias de ataque, revelando patrones sistemáticos de vulnerabilidad y proporcionando información valiosa para el desarrollo de agentes de próxima generación seguros.
English
AI agents are increasingly deployed across diverse domains to automate complex workflows through long-horizon and high-stakes action executions. Due to their high capability and flexibility, such agents raise significant security and safety concerns. A growing number of real-world incidents have shown that adversaries can easily manipulate agents into performing harmful actions, such as leaking API keys, deleting user data, or initiating unauthorized transactions. Evaluating agent security is inherently challenging, as agents operate in dynamic, untrusted environments involving external tools, heterogeneous data sources, and frequent user interactions. However, realistic, controllable, and reproducible environments for large-scale risk assessment remain largely underexplored. To address this gap, we introduce the DecodingTrust-Agent Platform (DTap), the first controllable and interactive red-teaming platform for AI agents, spanning 14 real-world domains and over 50 simulation environments that replicate widely used systems such as Google Workspace, Paypal, and Slack. To scale the risk assessment of agents in DTap, we further propose DTap-Red, the first autonomous red-teaming agent that systematically explores diverse injection vectors (e.g., prompt, tool, skill, environment, combinations) and autonomously discovers effective attack strategies tailored to varying malicious goals. Using DTap-Red, we curate DTap-Bench, a large-scale red-teaming dataset comprising high-quality instances across domains, each paired with a verifiable judge to automatically validate attack outcomes. Through DTap, we conduct large-scale evaluations of popular AI agents built on various backbone models, spanning security policies, risk categories, and attack strategies, revealing systematic vulnerability patterns and providing valuable insights for developing secure next-generation agents.
PDF191May 12, 2026