ChatInject : Exploitation des modèles de chat pour l'injection de prompts dans les agents LLM
ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
September 26, 2025
papers.authors: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI
papers.abstract
Le déploiement croissant d'agents basés sur des modèles de langage de grande taille (LLM) interagissant avec des environnements externes a créé de nouvelles surfaces d'attaque pour la manipulation malveillante. Une menace majeure est l'injection indirecte de prompts, où les attaquants intègrent des instructions malveillantes dans les sorties de l'environnement externe, incitant les agents à les interpréter et à les exécuter comme s'il s'agissait de prompts légitimes. Alors que les recherches précédentes se sont principalement concentrées sur les attaques par injection en texte brut, nous identifions une vulnérabilité importante mais peu explorée : la dépendance des LLM aux modèles de chat structurés et leur sensibilité à la manipulation contextuelle via des dialogues persuasifs en plusieurs tours. À cette fin, nous introduisons ChatInject, une attaque qui formate des charges utiles malveillantes pour imiter les modèles de chat natifs, exploitant ainsi les tendances naturelles des modèles à suivre les instructions. Sur cette base, nous développons une variante Multi-tours axée sur la persuasion, qui prépare l'agent au fil des tours de conversation à accepter et exécuter des actions autrement suspectes. À travers des expériences approfondies sur des LLM de pointe, nous démontrons trois résultats critiques : (1) ChatInject atteint des taux de réussite d'attaque moyens significativement plus élevés que les méthodes traditionnelles d'injection de prompts, passant de 5,18 % à 32,05 % sur AgentDojo et de 15,13 % à 45,90 % sur InjecAgent, avec des dialogues multi-tours montrant une performance particulièrement forte à un taux de réussite moyen de 52,33 % sur InjecAgent, (2) les charges utiles basées sur des modèles de chat démontrent une forte transférabilité entre les modèles et restent efficaces même contre des LLM propriétaires, malgré leurs structures de modèles inconnues, et (3) les défenses existantes basées sur les prompts sont largement inefficaces contre cette approche d'attaque, en particulier contre les variantes Multi-tours. Ces résultats mettent en lumière les vulnérabilités des systèmes d'agents actuels.
English
The growing deployment of large language model (LLM) based agents that
interact with external environments has created new attack surfaces for
adversarial manipulation. One major threat is indirect prompt injection, where
attackers embed malicious instructions in external environment output, causing
agents to interpret and execute them as if they were legitimate prompts. While
previous research has focused primarily on plain-text injection attacks, we
find a significant yet underexplored vulnerability: LLMs' dependence on
structured chat templates and their susceptibility to contextual manipulation
through persuasive multi-turn dialogues. To this end, we introduce ChatInject,
an attack that formats malicious payloads to mimic native chat templates,
thereby exploiting the model's inherent instruction-following tendencies.
Building on this foundation, we develop a persuasion-driven Multi-turn variant
that primes the agent across conversational turns to accept and execute
otherwise suspicious actions. Through comprehensive experiments across frontier
LLMs, we demonstrate three critical findings: (1) ChatInject achieves
significantly higher average attack success rates than traditional prompt
injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13%
to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong
performance at average 52.33% success rate on InjecAgent, (2)
chat-template-based payloads demonstrate strong transferability across models
and remain effective even against closed-source LLMs, despite their unknown
template structures, and (3) existing prompt-based defenses are largely
ineffective against this attack approach, especially against Multi-turn
variants. These findings highlight vulnerabilities in current agent systems.