T-MAP: Тестирование на устойчивость LLM-агентов с помощью эволюционного поиска с учетом траектории
T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search
March 21, 2026
Авторы: Hyomin Lee, Sangwoo Park, Yumin Choi, Sohyun An, Seanie Lee, Sung Ju Hwang
cs.AI
Аннотация
В то время как предыдущие усилия по тестированию на устойчивость (red-teaming) были сосредоточены на выявлении генерации вредоносных текстовых ответов большими языковыми моделями (LLM), такие подходы не учитывают специфические для агентов уязвимости, которые проявляются в процессе многошагового выполнения инструментов, особенно в быстрорастущих экосистемах, таких как Model Context Protocol (MCP). Для устранения этого пробела мы предлагаем метод эволюционного поиска с учетом траектории выполнения, T-MAP, который использует траектории выполнения для направления поиска адверсарных промптов. Наш подход позволяет автоматически генерировать атаки, которые не только обходят защитные механизмы безопасности, но и надежно достигают вредоносных целей за счет реального взаимодействия с инструментами. Эмпирические оценки в различных средах MCP демонстрируют, что T-MAP существенно превосходит базовые методы по показателю успешности реализации атаки (ARR) и остается эффективным против передовых моделей, включая GPT-5.2, Gemini-3-Pro, Qwen3.5 и GLM-5, тем самым выявляя ранее недостаточно изученные уязвимости автономных LLM-агентов.
English
While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.