ChatPaper.aiChatPaper

T-MAP: Red-Teaming van LLM-agenten met Trajectoriebewuste Evolutionaire Zoektocht

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

March 21, 2026
Auteurs: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang
cs.AI

Samenvatting

Hoewel eerdere red-teaming-inspanningen zich richtten op het ontlokken van schadelijke tekstoutput van grote taalmodellen (LLM's), slagen dergelijke benaderingen er niet in om agentspecifieke kwetsbaarheden te vangen die ontstaan tijdens multi-step tool-uitvoering, met name in snelgroeiende ecosystemen zoals het Model Context Protocol (MCP). Om dit hiaat te adresseren, stellen we een trajectbewuste evolutionaire zoekmethode voor, T-MAP, die uitvoeringstrajecten benut om de ontdekking van adversariële prompts te sturen. Onze aanpak maakt de automatische generatie van aanvallen mogelijk die niet alleen veiligheidsmaatregelen omzeilen, maar ook betrouwbaar schadelijke doelstellingen realiseren door daadwerkelijke toolinteracties. Empirische evaluaties in diverse MCP-omgevingen tonen aan dat T-MAP baseline-methoden aanzienlijk overtreft in de aanvalsrealisatieratio (ARR) en effectief blijft tegen frontiermodellen, waaronder GPT-5.2, Gemini-3-Pro, Qwen3.5 en GLM-5, waardoor voorheen onderbelichte kwetsbaarheden in autonome LLM-agents aan het licht worden gebracht.
English
While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.
PDF302March 27, 2026