ChatInject: Missbrauch von Chat-Vorlagen für Prompt-Injection in LLM-Agenten

papers.abstract

Die zunehmende Verbreitung von Agenten, die auf großen Sprachmodellen (LLMs) basieren und mit externen Umgebungen interagieren, hat neue Angriffsflächen für adversarische Manipulationen geschaffen. Eine große Bedrohung stellt die indirekte Prompt-Injektion dar, bei der Angreifer bösartige Anweisungen in die Ausgabe der externen Umgebung einbetten, wodurch Agenten diese als legitime Prompts interpretieren und ausführen. Während sich frühere Forschung hauptsächlich auf Plain-Text-Injektionsangriffe konzentrierte, entdecken wir eine signifikante, jedoch bisher wenig erforschte Schwachstelle: die Abhängigkeit von LLMs von strukturierten Chat-Vorlagen und ihre Anfälligkeit für kontextuelle Manipulation durch überzeugende Mehrfachdialoge. Zu diesem Zweck führen wir ChatInject ein, einen Angriff, der bösartige Nutzdaten so formatiert, dass sie native Chat-Vorlagen nachahmen und damit die inhärente Tendenz des Modells, Anweisungen zu befolgen, ausnutzt. Auf dieser Grundlage entwickeln wir eine persuasionsgetriebene Mehrfachvariante, die den Agenten über mehrere Gesprächsrunden hinweg darauf vorbereitet, ansonsten verdächtige Aktionen zu akzeptieren und auszuführen. Durch umfassende Experimente mit führenden LLMs demonstrieren wir drei kritische Erkenntnisse: (1) ChatInject erreicht signifikant höhere durchschnittliche Angriffserfolgsraten als traditionelle Prompt-Injektionsmethoden, mit einer Steigerung von 5,18 % auf 32,05 % bei AgentDojo und von 15,13 % auf 45,90 % bei InjecAgent, wobei Mehrfachdialoge besonders stark abschneiden und eine durchschnittliche Erfolgsrate von 52,33 % bei InjecAgent erreichen, (2) Chat-Vorlagen-basierte Nutzdaten zeigen eine starke Übertragbarkeit zwischen Modellen und bleiben auch bei Closed-Source-LLMs effektiv, trotz unbekannter Vorlagenstrukturen, und (3) bestehende Prompt-basierte Abwehrmechanismen sind weitgehend unwirksam gegen diesen Angriffsansatz, insbesondere gegen Mehrfachvarianten. Diese Erkenntnisse verdeutlichen Schwachstellen in aktuellen Agentensystemen.

English

The growing deployment of large language model (LLM) based agents that interact with external environments has created new attack surfaces for adversarial manipulation. One major threat is indirect prompt injection, where attackers embed malicious instructions in external environment output, causing agents to interpret and execute them as if they were legitimate prompts. While previous research has focused primarily on plain-text injection attacks, we find a significant yet underexplored vulnerability: LLMs' dependence on structured chat templates and their susceptibility to contextual manipulation through persuasive multi-turn dialogues. To this end, we introduce ChatInject, an attack that formats malicious payloads to mimic native chat templates, thereby exploiting the model's inherent instruction-following tendencies. Building on this foundation, we develop a persuasion-driven Multi-turn variant that primes the agent across conversational turns to accept and execute otherwise suspicious actions. Through comprehensive experiments across frontier LLMs, we demonstrate three critical findings: (1) ChatInject achieves significantly higher average attack success rates than traditional prompt injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13% to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong performance at average 52.33% success rate on InjecAgent, (2) chat-template-based payloads demonstrate strong transferability across models and remain effective even against closed-source LLMs, despite their unknown template structures, and (3) existing prompt-based defenses are largely ineffective against this attack approach, especially against Multi-turn variants. These findings highlight vulnerabilities in current agent systems.

ChatInject: Missbrauch von Chat-Vorlagen für Prompt-Injection in LLM-Agenten

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

papers.abstract

Support