ChatInject: Злоупотребление шаблонами чатов для внедрения подсказок в агенты на основе больших языковых моделей

Аннотация

Растущее внедрение агентов на основе больших языковых моделей (LLM), взаимодействующих с внешними средами, создало новые поверхности для атак с использованием методов враждебного манипулирования. Одной из основных угроз является косвенная инъекция подсказок, при которой злоумышленники внедряют вредоносные инструкции в вывод внешней среды, заставляя агентов интерпретировать и выполнять их как легитимные запросы. В то время как предыдущие исследования в основном сосредотачивались на атаках с использованием простого текста, мы обнаруживаем значительную, но недостаточно изученную уязвимость: зависимость LLM от структурированных шаблонов чатов и их подверженность контекстному манипулированию через убедительные многоходовые диалоги. В связи с этим мы представляем ChatInject — атаку, которая форматирует вредоносные нагрузки для имитации нативных шаблонов чатов, тем самым эксплуатируя врожденные склонности модели следовать инструкциям. На основе этого мы разрабатываем многоходовый вариант, основанный на убеждении, который подготавливает агента в ходе нескольких раундов диалога к принятию и выполнению в иных случаях подозрительных действий. В ходе всесторонних экспериментов с передовыми LLM мы демонстрируем три ключевых вывода: (1) ChatInject достигает значительно более высоких средних показателей успешности атак по сравнению с традиционными методами инъекции подсказок, улучшая результаты с 5,18% до 32,05% на AgentDojo и с 15,13% до 45,90% на InjecAgent, при этом многоходовые диалоги показывают особенно высокую эффективность со средним показателем успешности 52,33% на InjecAgent, (2) нагрузки, основанные на шаблонах чатов, демонстрируют высокую переносимость между моделями и остаются эффективными даже против закрытых LLM, несмотря на неизвестные структуры их шаблонов, и (3) существующие методы защиты на основе подсказок в значительной степени неэффективны против данного подхода, особенно против многоходовых вариантов. Эти результаты подчеркивают уязвимости в современных системах агентов.

English

The growing deployment of large language model (LLM) based agents that interact with external environments has created new attack surfaces for adversarial manipulation. One major threat is indirect prompt injection, where attackers embed malicious instructions in external environment output, causing agents to interpret and execute them as if they were legitimate prompts. While previous research has focused primarily on plain-text injection attacks, we find a significant yet underexplored vulnerability: LLMs' dependence on structured chat templates and their susceptibility to contextual manipulation through persuasive multi-turn dialogues. To this end, we introduce ChatInject, an attack that formats malicious payloads to mimic native chat templates, thereby exploiting the model's inherent instruction-following tendencies. Building on this foundation, we develop a persuasion-driven Multi-turn variant that primes the agent across conversational turns to accept and execute otherwise suspicious actions. Through comprehensive experiments across frontier LLMs, we demonstrate three critical findings: (1) ChatInject achieves significantly higher average attack success rates than traditional prompt injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13% to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong performance at average 52.33% success rate on InjecAgent, (2) chat-template-based payloads demonstrate strong transferability across models and remain effective even against closed-source LLMs, despite their unknown template structures, and (3) existing prompt-based defenses are largely ineffective against this attack approach, especially against Multi-turn variants. These findings highlight vulnerabilities in current agent systems.

ChatInject: Злоупотребление шаблонами чатов для внедрения подсказок в агенты на основе больших языковых моделей

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

Аннотация

Support