ChatInject: Explorando o Abuso de Modelos de Chat para Injeção de Prompts em Agentes de LLM
ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
September 26, 2025
Autores: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI
Resumo
A crescente implantação de agentes baseados em grandes modelos de linguagem (LLMs) que interagem com ambientes externos criou novas superfícies de ataque para manipulação adversária. Uma grande ameaça é a injeção indireta de prompts, onde atacantes incorporam instruções maliciosas na saída de ambientes externos, fazendo com que os agentes as interpretem e executem como se fossem prompts legítimos. Embora pesquisas anteriores tenham se concentrado principalmente em ataques de injeção de texto simples, identificamos uma vulnerabilidade significativa e ainda pouco explorada: a dependência dos LLMs em modelos estruturados de chat e sua suscetibilidade à manipulação contextual por meio de diálogos persuasivos em múltiplos turnos. Para isso, introduzimos o ChatInject, um ataque que formata cargas maliciosas para imitar modelos nativos de chat, explorando assim a tendência inerente do modelo de seguir instruções. Com base nisso, desenvolvemos uma variante Multi-turn orientada à persuasão, que prepara o agente ao longo de vários turnos de conversa para aceitar e executar ações que, de outra forma, seriam consideradas suspeitas. Por meio de experimentos abrangentes em LLMs de ponta, demonstramos três descobertas críticas: (1) o ChatInject alcança taxas médias de sucesso de ataque significativamente maiores do que os métodos tradicionais de injeção de prompts, melhorando de 5,18% para 32,05% no AgentDojo e de 15,13% para 45,90% no InjecAgent, com diálogos Multi-turn mostrando um desempenho particularmente forte, com uma taxa média de sucesso de 52,33% no InjecAgent, (2) cargas baseadas em modelos de chat demonstram forte transferibilidade entre modelos e permanecem eficazes mesmo contra LLMs de código fechado, apesar de suas estruturas de modelo desconhecidas, e (3) as defesas existentes baseadas em prompts são amplamente ineficazes contra essa abordagem de ataque, especialmente contra variantes Multi-turn. Essas descobertas destacam vulnerabilidades nos sistemas de agentes atuais.
English
The growing deployment of large language model (LLM) based agents that
interact with external environments has created new attack surfaces for
adversarial manipulation. One major threat is indirect prompt injection, where
attackers embed malicious instructions in external environment output, causing
agents to interpret and execute them as if they were legitimate prompts. While
previous research has focused primarily on plain-text injection attacks, we
find a significant yet underexplored vulnerability: LLMs' dependence on
structured chat templates and their susceptibility to contextual manipulation
through persuasive multi-turn dialogues. To this end, we introduce ChatInject,
an attack that formats malicious payloads to mimic native chat templates,
thereby exploiting the model's inherent instruction-following tendencies.
Building on this foundation, we develop a persuasion-driven Multi-turn variant
that primes the agent across conversational turns to accept and execute
otherwise suspicious actions. Through comprehensive experiments across frontier
LLMs, we demonstrate three critical findings: (1) ChatInject achieves
significantly higher average attack success rates than traditional prompt
injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13%
to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong
performance at average 52.33% success rate on InjecAgent, (2)
chat-template-based payloads demonstrate strong transferability across models
and remain effective even against closed-source LLMs, despite their unknown
template structures, and (3) existing prompt-based defenses are largely
ineffective against this attack approach, especially against Multi-turn
variants. These findings highlight vulnerabilities in current agent systems.