T-MAP: Red-Teaming di Agenti LLM con Ricerca Evolutiva Consapevole della Traiettoria

Abstract

Mentre i precedenti sforzi di red-teaming si sono concentrati sull'evocazione di output testuali dannosi da parte dei grandi modelli linguistici (LLM), tali approcci non riescono a cogliere le vulnerabilità specifiche degli agenti che emergono attraverso l'esecuzione multi-step di strumenti, specialmente in ecosistemi in rapida crescita come il Model Context Protocol (MCP). Per colmare questa lacuna, proponiamo un metodo di ricerca evolutiva trajectory-aware, T-MAP, che sfrutta le traiettorie di esecuzione per guidare la scoperta di prompt avversariali. Il nostro approccio consente la generazione automatica di attacchi che non solo eludono le misure di sicurezza, ma realizzano anche in modo affidabile obiettivi dannosi attraverso interazioni effettive con gli strumenti. Valutazioni empiriche condotte in vari ambienti MCP dimostrano che T-MAP supera sostanzialmente i metodi di riferimento nel tasso di realizzazione degli attacchi (ARR) e rimane efficace contro modelli all'avanguardia, inclusi GPT-5.2, Gemini-3-Pro, Qwen3.5 e GLM-5, rivelando così vulnerabilità precedentemente poco esplorate negli agenti LLM autonomi.

English

While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.

T-MAP: Red-Teaming di Agenti LLM con Ricerca Evolutiva Consapevole della Traiettoria

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Abstract

Support