T-MAP: Teste de Vulnerabilidade em Agentes de LLM com Busca Evolutiva Consciente da Trajetória

Resumo

Embora os esforços anteriores de red-teaming tenham se concentrado em elicitar saídas de texto prejudiciais de grandes modelos de linguagem (LLMs), tais abordagens não conseguem capturar vulnerabilidades específicas de agentes que emergem através da execução multi-etapa de ferramentas, particularmente em ecossistemas em rápido crescimento, como o Model Context Protocol (MCP). Para abordar esta lacuna, propomos um método de busca evolutiva consciente da trajetória, o T-MAP, que aproveita trajetórias de execução para orientar a descoberta de *prompts* adversariais. Nossa abordagem permite a geração automática de ataques que não apenas contornam barreiras de segurança, mas também realizam de forma confiável objetivos maliciosos através de interações reais com ferramentas. Avaliações empíricas em diversos ambientes MCP demonstram que o T-MAP supera substancialmente as linhas de base na taxa de realização de ataques (ARR, do inglês *Attack Realization Rate*) e mantém-se eficaz contra modelos de fronteira, incluindo GPT-5.2, Gemini-3-Pro, Qwen3.5 e GLM-5, revelando assim vulnerabilidades anteriormente pouco exploradas em agentes autônomos baseados em LLMs.

English

While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.