ChatInject: Злоупотребление шаблонами чатов для внедрения подсказок в агенты на основе больших языковых моделей
ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
September 26, 2025
Авторы: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI
Аннотация
Растущее внедрение агентов на основе больших языковых моделей (LLM), взаимодействующих с внешними средами, создало новые поверхности для атак с использованием методов враждебного манипулирования. Одной из основных угроз является косвенная инъекция подсказок, при которой злоумышленники внедряют вредоносные инструкции в вывод внешней среды, заставляя агентов интерпретировать и выполнять их как легитимные запросы. В то время как предыдущие исследования в основном сосредотачивались на атаках с использованием простого текста, мы обнаруживаем значительную, но недостаточно изученную уязвимость: зависимость LLM от структурированных шаблонов чатов и их подверженность контекстному манипулированию через убедительные многоходовые диалоги. В связи с этим мы представляем ChatInject — атаку, которая форматирует вредоносные нагрузки для имитации нативных шаблонов чатов, тем самым эксплуатируя врожденные склонности модели следовать инструкциям. На основе этого мы разрабатываем многоходовый вариант, основанный на убеждении, который подготавливает агента в ходе нескольких раундов диалога к принятию и выполнению в иных случаях подозрительных действий. В ходе всесторонних экспериментов с передовыми LLM мы демонстрируем три ключевых вывода: (1) ChatInject достигает значительно более высоких средних показателей успешности атак по сравнению с традиционными методами инъекции подсказок, улучшая результаты с 5,18% до 32,05% на AgentDojo и с 15,13% до 45,90% на InjecAgent, при этом многоходовые диалоги показывают особенно высокую эффективность со средним показателем успешности 52,33% на InjecAgent, (2) нагрузки, основанные на шаблонах чатов, демонстрируют высокую переносимость между моделями и остаются эффективными даже против закрытых LLM, несмотря на неизвестные структуры их шаблонов, и (3) существующие методы защиты на основе подсказок в значительной степени неэффективны против данного подхода, особенно против многоходовых вариантов. Эти результаты подчеркивают уязвимости в современных системах агентов.
English
The growing deployment of large language model (LLM) based agents that
interact with external environments has created new attack surfaces for
adversarial manipulation. One major threat is indirect prompt injection, where
attackers embed malicious instructions in external environment output, causing
agents to interpret and execute them as if they were legitimate prompts. While
previous research has focused primarily on plain-text injection attacks, we
find a significant yet underexplored vulnerability: LLMs' dependence on
structured chat templates and their susceptibility to contextual manipulation
through persuasive multi-turn dialogues. To this end, we introduce ChatInject,
an attack that formats malicious payloads to mimic native chat templates,
thereby exploiting the model's inherent instruction-following tendencies.
Building on this foundation, we develop a persuasion-driven Multi-turn variant
that primes the agent across conversational turns to accept and execute
otherwise suspicious actions. Through comprehensive experiments across frontier
LLMs, we demonstrate three critical findings: (1) ChatInject achieves
significantly higher average attack success rates than traditional prompt
injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13%
to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong
performance at average 52.33% success rate on InjecAgent, (2)
chat-template-based payloads demonstrate strong transferability across models
and remain effective even against closed-source LLMs, despite their unknown
template structures, and (3) existing prompt-based defenses are largely
ineffective against this attack approach, especially against Multi-turn
variants. These findings highlight vulnerabilities in current agent systems.