AgentPoison: Red-Teaming de Agentes LLM a través de Envenenamiento de Memoria o Bases de Conocimiento

Resumen

Los agentes LLM han demostrado un rendimiento notable en diversas aplicaciones, principalmente debido a sus capacidades avanzadas en razonamiento, uso de conocimientos y herramientas externas, llamada a APIs y ejecución de acciones para interactuar con entornos. Los agentes actuales suelen utilizar un módulo de memoria o un mecanismo de generación aumentada por recuperación (RAG), recuperando conocimientos pasados e instancias con incrustaciones similares de bases de conocimiento para informar la planificación y ejecución de tareas. Sin embargo, la dependencia de bases de conocimiento no verificadas plantea preocupaciones significativas sobre su seguridad y confiabilidad. Para descubrir tales vulnerabilidades, proponemos un enfoque novedoso de red teaming llamado AgentPoison, el primer ataque de puerta trasera dirigido a agentes LLM genéricos y basados en RAG al envenenar su memoria a largo plazo o base de conocimiento RAG. En particular, formulamos el proceso de generación de desencadenantes como una optimización restringida para optimizar los desencadenantes de puerta trasera mediante el mapeo de las instancias desencadenadas a un espacio de incrustación único, de modo que cada vez que una instrucción de usuario contenga el desencadenante de puerta trasera optimizado, las demostraciones maliciosas se recuperen de la memoria envenenada o base de conocimiento con alta probabilidad. Mientras tanto, las instrucciones benignas sin el desencadenante seguirán manteniendo un rendimiento normal. A diferencia de los ataques de puerta trasera convencionales, AgentPoison no requiere entrenamiento adicional del modelo ni ajuste fino, y el desencadenante de puerta trasera optimizado muestra una transferibilidad superior, coherencia contextual y sigilo. Experimentos extensos demuestran la efectividad de AgentPoison en atacar tres tipos de agentes LLM del mundo real: un agente de conducción autónoma basado en RAG, un agente de QA intensivo en conocimiento y un agente de EHRAgent en el sector de la salud. En cada agente, AgentPoison logra una tasa de éxito de ataque promedio superior al 80% con un impacto mínimo en el rendimiento benigno (menos del 1%) y una tasa de envenenamiento inferior al 0.1%.

English

LLM agents have demonstrated remarkable performance across various applications, primarily due to their advanced capabilities in reasoning, utilizing external knowledge and tools, calling APIs, and executing actions to interact with environments. Current agents typically utilize a memory module or a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and instances with similar embeddings from knowledge bases to inform task planning and execution. However, the reliance on unverified knowledge bases raises significant concerns about their safety and trustworthiness. To uncover such vulnerabilities, we propose a novel red teaming approach AgentPoison, the first backdoor attack targeting generic and RAG-based LLM agents by poisoning their long-term memory or RAG knowledge base. In particular, we form the trigger generation process as a constrained optimization to optimize backdoor triggers by mapping the triggered instances to a unique embedding space, so as to ensure that whenever a user instruction contains the optimized backdoor trigger, the malicious demonstrations are retrieved from the poisoned memory or knowledge base with high probability. In the meantime, benign instructions without the trigger will still maintain normal performance. Unlike conventional backdoor attacks, AgentPoison requires no additional model training or fine-tuning, and the optimized backdoor trigger exhibits superior transferability, in-context coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's effectiveness in attacking three types of real-world LLM agents: RAG-based autonomous driving agent, knowledge-intensive QA agent, and healthcare EHRAgent. On each agent, AgentPoison achieves an average attack success rate higher than 80% with minimal impact on benign performance (less than 1%) with a poison rate less than 0.1%.

AgentPoison: Red-Teaming de Agentes LLM a través de Envenenamiento de Memoria o Bases de Conocimiento

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

Resumen

Support