AgentPoison: Red-teaming de Agentes LLM através da Intoxicação de Memória ou Bases de Conhecimento
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
July 17, 2024
Autores: Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
cs.AI
Resumo
Agentes LLM têm demonstrado um desempenho notável em várias aplicações, principalmente devido às suas capacidades avançadas em raciocínio, uso de conhecimento e ferramentas externas, chamada de APIs e execução de ações para interagir com ambientes. Agentes atuais geralmente utilizam um módulo de memória ou um mecanismo de geração aumentada por recuperação (RAG), recuperando conhecimento passado e instâncias com incorporações semelhantes de bases de conhecimento para informar o planejamento e execução de tarefas. No entanto, a dependência de bases de conhecimento não verificadas levanta preocupações significativas sobre sua segurança e confiabilidade. Para descobrir tais vulnerabilidades, propomos uma abordagem inovadora de red teaming, o AgentPoison, o primeiro ataque de backdoor direcionado a agentes LLM genéricos e baseados em RAG, envenenando sua memória de longo prazo ou base de conhecimento RAG. Em particular, formulamos o processo de geração de gatilho como uma otimização restrita para otimizar gatilhos de backdoor mapeando as instâncias acionadas para um espaço de incorporação único, garantindo que sempre que uma instrução do usuário contenha o gatilho de backdoor otimizado, as demonstrações maliciosas sejam recuperadas da memória envenenada ou base de conhecimento com alta probabilidade. Enquanto isso, instruções benignas sem o gatilho ainda manterão o desempenho normal. Ao contrário dos ataques de backdoor convencionais, o AgentPoison não requer treinamento adicional do modelo ou ajuste fino, e o gatilho de backdoor otimizado exibe superior transferibilidade, coerência contextual e furtividade. Experimentos extensos demonstram a eficácia do AgentPoison em atacar três tipos de agentes LLM do mundo real: agente de direção autônoma baseado em RAG, agente de QA intensivo em conhecimento e EHRAgent de saúde. Em cada agente, o AgentPoison alcança uma taxa média de sucesso de ataque superior a 80% com impacto mínimo no desempenho benigno (menos de 1%) com uma taxa de envenenamento inferior a 0,1%.
English
LLM agents have demonstrated remarkable performance across various
applications, primarily due to their advanced capabilities in reasoning,
utilizing external knowledge and tools, calling APIs, and executing actions to
interact with environments. Current agents typically utilize a memory module or
a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and
instances with similar embeddings from knowledge bases to inform task planning
and execution. However, the reliance on unverified knowledge bases raises
significant concerns about their safety and trustworthiness. To uncover such
vulnerabilities, we propose a novel red teaming approach AgentPoison, the first
backdoor attack targeting generic and RAG-based LLM agents by poisoning their
long-term memory or RAG knowledge base. In particular, we form the trigger
generation process as a constrained optimization to optimize backdoor triggers
by mapping the triggered instances to a unique embedding space, so as to ensure
that whenever a user instruction contains the optimized backdoor trigger, the
malicious demonstrations are retrieved from the poisoned memory or knowledge
base with high probability. In the meantime, benign instructions without the
trigger will still maintain normal performance. Unlike conventional backdoor
attacks, AgentPoison requires no additional model training or fine-tuning, and
the optimized backdoor trigger exhibits superior transferability, in-context
coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's
effectiveness in attacking three types of real-world LLM agents: RAG-based
autonomous driving agent, knowledge-intensive QA agent, and healthcare
EHRAgent. On each agent, AgentPoison achieves an average attack success rate
higher than 80% with minimal impact on benign performance (less than 1%) with a
poison rate less than 0.1%.