T-MAP: Red-Teaming von LLM-Agenten mit trajektorienbewusster evolutionärer Suche
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
March 21, 2026
Autoren: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang
cs.AI
Zusammenfassung
Während sich frühere Red-Teaming-Bemühungen darauf konzentrierten, schädliche Textausgaben aus großen Sprachmodellen (LLMs) zu provozieren, erfassen solche Ansätze nicht die modellspezifischen Schwachstellen, die durch mehrstufige Werkzeugausführung entstehen – insbesondere in schnell wachsenden Ökosystemen wie dem Model Context Protocol (MCP). Um diese Lücke zu schließen, schlagen wir eine trajektorienbewusste evolutionäre Suchmethode, T-MAP, vor, die Ausführungspfade nutzt, um die Entdeckung adverser Prompts zu steuern. Unser Ansatz ermöglicht die automatische Generierung von Angriffen, die nicht nur Sicherheitsbarrieren umgehen, sondern schädliche Ziele auch zuverlässig durch tatsächliche Werkzeuginteraktionen erreichen. Empirische Auswertungen in verschiedenen MCP-Umgebungen zeigen, dass T-MAP Baseline-Methoden deutlich in der Angriffsrealisierungsrate (ARR) übertrifft und auch gegen hochaktuelle Modelle wie GPT-5.2, Gemini-3-Pro, Qwen3.5 und GLM-5 wirksam bleibt. Dadurch werden bisher wenig erforschte Schwachstellen in autonomen LLM-Agenten aufgedeckt.
English
While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.