ChatInject: Misbruik van Chat-sjablonen voor Prompt Injectie in LLM-agents
ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
September 26, 2025
Auteurs: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI
Samenvatting
De toenemende inzet van agents gebaseerd op grote taalmodellen (LLM) die interacteren met externe omgevingen heeft nieuwe aanvalsoppervlakken gecreëerd voor vijandige manipulatie. Een grote bedreiging is indirecte prompt-injectie, waarbij aanvallers kwaadaardige instructies in de uitvoer van externe omgevingen inbedden, waardoor agents deze interpreteren en uitvoeren alsof het legitieme prompts zijn. Terwijl eerder onderzoek zich vooral richtte op plain-text injectie-aanvallen, ontdekken we een significante maar onderbelichte kwetsbaarheid: de afhankelijkheid van LLM's van gestructureerde chat-sjablonen en hun vatbaarheid voor contextuele manipulatie via overtuigende meerronde dialogen. Hiertoe introduceren we ChatInject, een aanval die kwaadaardige payloads formatteert om native chat-sjablonen na te bootsen, waardoor de inherente neiging van het model om instructies te volgen wordt misbruikt. Op deze basis ontwikkelen we een overtuigingsgedreven meerronde variant die de agent gedurende conversatieronden voorbereidt om anders verdachte acties te accepteren en uit te voeren. Door uitgebreide experimenten met vooraanstaande LLM's demonstreren we drie kritieke bevindingen: (1) ChatInject behaalt aanzienlijk hogere gemiddelde aanvalssuccespercentages dan traditionele prompt-injectiemethoden, met een verbetering van 5,18% naar 32,05% op AgentDojo en van 15,13% naar 45,90% op InjecAgent, waarbij meerronde dialogen met name sterk presteren met een gemiddeld succespercentage van 52,33% op InjecAgent, (2) chat-sjabloongebaseerde payloads tonen sterke overdraagbaarheid tussen modellen en blijven effectief zelfs tegen gesloten LLM's, ondanks hun onbekende sjabloonstructuren, en (3) bestaande prompt-gebaseerde verdedigingen zijn grotendeels ineffectief tegen deze aanvalsmethode, vooral tegen meerronde varianten. Deze bevindingen benadrukken kwetsbaarheden in huidige agentsystemen.
English
The growing deployment of large language model (LLM) based agents that
interact with external environments has created new attack surfaces for
adversarial manipulation. One major threat is indirect prompt injection, where
attackers embed malicious instructions in external environment output, causing
agents to interpret and execute them as if they were legitimate prompts. While
previous research has focused primarily on plain-text injection attacks, we
find a significant yet underexplored vulnerability: LLMs' dependence on
structured chat templates and their susceptibility to contextual manipulation
through persuasive multi-turn dialogues. To this end, we introduce ChatInject,
an attack that formats malicious payloads to mimic native chat templates,
thereby exploiting the model's inherent instruction-following tendencies.
Building on this foundation, we develop a persuasion-driven Multi-turn variant
that primes the agent across conversational turns to accept and execute
otherwise suspicious actions. Through comprehensive experiments across frontier
LLMs, we demonstrate three critical findings: (1) ChatInject achieves
significantly higher average attack success rates than traditional prompt
injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13%
to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong
performance at average 52.33% success rate on InjecAgent, (2)
chat-template-based payloads demonstrate strong transferability across models
and remain effective even against closed-source LLMs, despite their unknown
template structures, and (3) existing prompt-based defenses are largely
ineffective against this attack approach, especially against Multi-turn
variants. These findings highlight vulnerabilities in current agent systems.