ChatInject: Sfruttamento dei Modelli di Chat per l'Iniezione di Prompt negli Agenti LLM
ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
September 26, 2025
Autori: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI
Abstract
Il crescente utilizzo di agenti basati su modelli linguistici di grandi dimensioni (LLM) che interagiscono con ambienti esterni ha creato nuove superfici di attacco per la manipolazione avversaria. Una minaccia significativa è rappresentata dall'iniezione indiretta di prompt, in cui gli attaccanti incorporano istruzioni malevole nell'output dell'ambiente esterno, facendo sì che gli agenti le interpretino e le eseguano come se fossero prompt legittimi. Mentre la ricerca precedente si è concentrata principalmente su attacchi di iniezione in testo semplice, abbiamo identificato una vulnerabilità significativa ma poco esplorata: la dipendenza degli LLM da modelli di chat strutturati e la loro suscettibilità alla manipolazione contestuale attraverso dialoghi persuasivi a più turni. A tal fine, introduciamo ChatInject, un attacco che formatta payload malevoli per imitare i modelli di chat nativi, sfruttando così le tendenze intrinseche del modello a seguire le istruzioni. Basandoci su questo fondamento, sviluppiamo una variante Multi-turn guidata dalla persuasione che prepara l'agente attraverso turni conversazionali ad accettare ed eseguire azioni altrimenti sospette. Attraverso esperimenti completi su LLM all'avanguardia, dimostriamo tre risultati critici: (1) ChatInject raggiunge tassi di successo medi significativamente più elevati rispetto ai tradizionali metodi di iniezione di prompt, passando dal 5,18% al 32,05% su AgentDojo e dal 15,13% al 45,90% su InjecAgent, con dialoghi a più turni che mostrano prestazioni particolarmente forti con un tasso di successo medio del 52,33% su InjecAgent, (2) i payload basati su modelli di chat dimostrano una forte trasferibilità tra i modelli e rimangono efficaci anche contro LLM closed-source, nonostante le loro strutture di template sconosciute, e (3) le difese esistenti basate sui prompt sono largamente inefficaci contro questo approccio di attacco, specialmente contro le varianti Multi-turn. Questi risultati evidenziano vulnerabilità nei sistemi di agenti attuali.
English
The growing deployment of large language model (LLM) based agents that
interact with external environments has created new attack surfaces for
adversarial manipulation. One major threat is indirect prompt injection, where
attackers embed malicious instructions in external environment output, causing
agents to interpret and execute them as if they were legitimate prompts. While
previous research has focused primarily on plain-text injection attacks, we
find a significant yet underexplored vulnerability: LLMs' dependence on
structured chat templates and their susceptibility to contextual manipulation
through persuasive multi-turn dialogues. To this end, we introduce ChatInject,
an attack that formats malicious payloads to mimic native chat templates,
thereby exploiting the model's inherent instruction-following tendencies.
Building on this foundation, we develop a persuasion-driven Multi-turn variant
that primes the agent across conversational turns to accept and execute
otherwise suspicious actions. Through comprehensive experiments across frontier
LLMs, we demonstrate three critical findings: (1) ChatInject achieves
significantly higher average attack success rates than traditional prompt
injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13%
to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong
performance at average 52.33% success rate on InjecAgent, (2)
chat-template-based payloads demonstrate strong transferability across models
and remain effective even against closed-source LLMs, despite their unknown
template structures, and (3) existing prompt-based defenses are largely
ineffective against this attack approach, especially against Multi-turn
variants. These findings highlight vulnerabilities in current agent systems.