AgentPoison: Red-teaming di Agenti LLM tramite Avvelenamento della Memoria o delle Basi di Conoscenza
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
July 17, 2024
Autori: Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
cs.AI
Abstract
Gli agenti LLM hanno dimostrato prestazioni notevoli in varie applicazioni, principalmente grazie alle loro avanzate capacità di ragionamento, utilizzo di conoscenze esterne e strumenti, chiamata di API ed esecuzione di azioni per interagire con l'ambiente. Gli agenti attuali utilizzano tipicamente un modulo di memoria o un meccanismo di generazione aumentata con recupero (RAG), recuperando conoscenze passate e istanze con embedding simili da basi di conoscenza per informare la pianificazione e l'esecuzione dei compiti. Tuttavia, la dipendenza da basi di conoscenza non verificate solleva preoccupazioni significative riguardo alla loro sicurezza e affidabilità. Per scoprire tali vulnerabilità, proponiamo un nuovo approccio di red teaming chiamato AgentPoison, il primo attacco backdoor rivolto a agenti LLM generici e basati su RAG, avvelenando la loro memoria a lungo termine o la base di conoscenza RAG. In particolare, formuliamo il processo di generazione del trigger come un'ottimizzazione vincolata per ottimizzare i trigger backdoor mappando le istanze attivate in uno spazio di embedding unico, in modo da garantire che ogni volta che un'istruzione dell'utente contiene il trigger backdoor ottimizzato, le dimostrazioni malevole vengano recuperate dalla memoria o dalla base di conoscenza avvelenata con alta probabilità. Nel frattempo, le istruzioni benigne senza il trigger manterranno comunque prestazioni normali. A differenza degli attacchi backdoor convenzionali, AgentPoison non richiede ulteriori addestramenti o fine-tuning del modello, e il trigger backdoor ottimizzato mostra una superiore trasferibilità, coerenza contestuale e furtività. Esperimenti estensivi dimostrano l'efficacia di AgentPoison nell'attaccare tre tipi di agenti LLM del mondo reale: agente di guida autonoma basato su RAG, agente di QA ad alta intensità di conoscenza e agente sanitario EHRAgent. Su ciascun agente, AgentPoison raggiunge un tasso di successo medio dell'attacco superiore all'80% con un impatto minimo sulle prestazioni benigne (inferiore all'1%) e un tasso di avvelenamento inferiore allo 0,1%.
English
LLM agents have demonstrated remarkable performance across various
applications, primarily due to their advanced capabilities in reasoning,
utilizing external knowledge and tools, calling APIs, and executing actions to
interact with environments. Current agents typically utilize a memory module or
a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and
instances with similar embeddings from knowledge bases to inform task planning
and execution. However, the reliance on unverified knowledge bases raises
significant concerns about their safety and trustworthiness. To uncover such
vulnerabilities, we propose a novel red teaming approach AgentPoison, the first
backdoor attack targeting generic and RAG-based LLM agents by poisoning their
long-term memory or RAG knowledge base. In particular, we form the trigger
generation process as a constrained optimization to optimize backdoor triggers
by mapping the triggered instances to a unique embedding space, so as to ensure
that whenever a user instruction contains the optimized backdoor trigger, the
malicious demonstrations are retrieved from the poisoned memory or knowledge
base with high probability. In the meantime, benign instructions without the
trigger will still maintain normal performance. Unlike conventional backdoor
attacks, AgentPoison requires no additional model training or fine-tuning, and
the optimized backdoor trigger exhibits superior transferability, in-context
coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's
effectiveness in attacking three types of real-world LLM agents: RAG-based
autonomous driving agent, knowledge-intensive QA agent, and healthcare
EHRAgent. On each agent, AgentPoison achieves an average attack success rate
higher than 80% with minimal impact on benign performance (less than 1%) with a
poison rate less than 0.1%.