T-MAP: Pruebas de Resistencia de Agentes LLM mediante Búsqueda Evolutiva Consciente de la Trayectoria

Resumen

Si bien los esfuerzos previos de red-teaming se han centrado en elicitar salidas de texto dañinas de modelos de lenguaje grande (LLM), dichos enfoques no logran capturar vulnerabilidades específicas del agente que emergen a través de la ejecución de herramientas multi-paso, particularmente en ecosistemas de rápido crecimiento como el Model Context Protocol (MCP). Para abordar esta brecha, proponemos un método de búsqueda evolutiva consciente de la trayectoria, T-MAP, que aprovecha las trayectorias de ejecución para guiar el descubrimiento de *prompts* adversarios. Nuestro enfoque permite la generación automática de ataques que no solo eluden las barreras de seguridad, sino que también logran de manera confiable objetivos dañinos a través de interacciones reales con herramientas. Las evaluaciones empíricas en diversos entornos MCP demuestran que T-MAP supera sustancialmente a los métodos de referencia en la tasa de realización de ataques (ARR) y se mantiene efectivo contra modelos de vanguardia, incluidos GPT-5.2, Gemini-3-Pro, Qwen3.5 y GLM-5, revelando así vulnerabilidades previamente poco exploradas en agentes autónomos basados en LLM.

English

While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.

T-MAP: Pruebas de Resistencia de Agentes LLM mediante Búsqueda Evolutiva Consciente de la Trayectoria

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Resumen

Support