T-MAP : Test de résistance des agents LLM par recherche évolutive sensible aux trajectoires

Résumé

Si les efforts antérieurs de test d'intrusion se sont concentrés sur l'extraction de textes nuisibles des grands modèles de langage (LLM), ces approches ne parviennent pas à saisir les vulnérabilités spécifiques aux agents qui émergent lors de l'exécution multi-étapes d'outils, particulièrement dans des écosystèmes en croissance rapide comme le Model Context Protocol (MCP). Pour combler cette lacune, nous proposons une méthode de recherche évolutive consciente des trajectoires, T-MAP, qui exploite les trajectoires d'exécution pour guider la découverte de prompts adverses. Notre approche permet la génération automatique d'attaques qui non seulement contournent les dispositifs de sécurité, mais réalisent également de manière fiable des objectifs nuisibles via de réelles interactions avec les outils. Des évaluations empiriques dans divers environnements MCP démontrent que T-MAP surpasse substantiellement les méthodes de référence en taux de réalisation d'attaques (TRA) et reste efficace contre les modèles de pointe, incluant GPT-5.2, Gemini-3-Pro, Qwen3.5 et GLM-5, révélant ainsi des vulnérabilités précédemment sous-explorées chez les agents LLM autonomes.

English

While prior red-teaming efforts have focused on eliciting harmful text outputs from large language models (LLMs), such approaches fail to capture agent-specific vulnerabilities that emerge through multi-step tool execution, particularly in rapidly growing ecosystems such as the Model Context Protocol (MCP). To address this gap, we propose a trajectory-aware evolutionary search method, T-MAP, which leverages execution trajectories to guide the discovery of adversarial prompts. Our approach enables the automatic generation of attacks that not only bypass safety guardrails but also reliably realize harmful objectives through actual tool interactions. Empirical evaluations across diverse MCP environments demonstrate that T-MAP substantially outperforms baselines in attack realization rate (ARR) and remains effective against frontier models, including GPT-5.2, Gemini-3-Pro, Qwen3.5, and GLM-5, thereby revealing previously underexplored vulnerabilities in autonomous LLM agents.

T-MAP : Test de résistance des agents LLM par recherche évolutive sensible aux trajectoires

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Résumé

Support