ChatPaper.aiChatPaper

ChatInject: Explotación de Plantillas de Chat para Inyección de Prompts en Agentes de LLM

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

September 26, 2025
Autores: Hwan Chang, Yonghyun Jun, Hwanhee Lee
cs.AI

Resumen

El creciente despliegue de agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) que interactúan con entornos externos ha creado nuevas superficies de ataque para la manipulación adversaria. Una amenaza importante es la inyección indirecta de instrucciones, donde los atacantes incrustan instrucciones maliciosas en la salida del entorno externo, haciendo que los agentes las interpreten y ejecuten como si fueran instrucciones legítimas. Si bien investigaciones previas se han centrado principalmente en ataques de inyección de texto plano, identificamos una vulnerabilidad significativa y poco explorada: la dependencia de los LLM en plantillas de chat estructuradas y su susceptibilidad a la manipulación contextual a través de diálogos persuasivos de múltiples turnos. Con este fin, presentamos ChatInject, un ataque que formatea cargas maliciosas para imitar plantillas de chat nativas, aprovechando así las tendencias inherentes del modelo a seguir instrucciones. Sobre esta base, desarrollamos una variante de múltiples turnos impulsada por la persuasión, que prepara al agente a lo largo de los turnos de conversación para aceptar y ejecutar acciones que de otro modo serían sospechosas. A través de experimentos exhaustivos en LLM de vanguardia, demostramos tres hallazgos críticos: (1) ChatInject logra tasas de éxito promedio significativamente más altas que los métodos tradicionales de inyección de instrucciones, mejorando del 5,18% al 32,05% en AgentDojo y del 15,13% al 45,90% en InjecAgent, con diálogos de múltiples turnos mostrando un rendimiento particularmente fuerte con una tasa de éxito promedio del 52,33% en InjecAgent, (2) las cargas basadas en plantillas de chat demuestran una fuerte transferibilidad entre modelos y siguen siendo efectivas incluso contra LLM de código cerrado, a pesar de sus estructuras de plantilla desconocidas, y (3) las defensas existentes basadas en instrucciones son en gran medida ineficaces contra este enfoque de ataque, especialmente contra las variantes de múltiples turnos. Estos hallazgos resaltan vulnerabilidades en los sistemas de agentes actuales.
English
The growing deployment of large language model (LLM) based agents that interact with external environments has created new attack surfaces for adversarial manipulation. One major threat is indirect prompt injection, where attackers embed malicious instructions in external environment output, causing agents to interpret and execute them as if they were legitimate prompts. While previous research has focused primarily on plain-text injection attacks, we find a significant yet underexplored vulnerability: LLMs' dependence on structured chat templates and their susceptibility to contextual manipulation through persuasive multi-turn dialogues. To this end, we introduce ChatInject, an attack that formats malicious payloads to mimic native chat templates, thereby exploiting the model's inherent instruction-following tendencies. Building on this foundation, we develop a persuasion-driven Multi-turn variant that primes the agent across conversational turns to accept and execute otherwise suspicious actions. Through comprehensive experiments across frontier LLMs, we demonstrate three critical findings: (1) ChatInject achieves significantly higher average attack success rates than traditional prompt injection methods, improving from 5.18% to 32.05% on AgentDojo and from 15.13% to 45.90% on InjecAgent, with multi-turn dialogues showing particularly strong performance at average 52.33% success rate on InjecAgent, (2) chat-template-based payloads demonstrate strong transferability across models and remain effective even against closed-source LLMs, despite their unknown template structures, and (3) existing prompt-based defenses are largely ineffective against this attack approach, especially against Multi-turn variants. These findings highlight vulnerabilities in current agent systems.
PDF42September 30, 2025