AgentPoison: Red-teaming van LLM-agents door vergiftiging van geheugen of kennisbanken

Samenvatting

LLM-agents hebben opmerkelijke prestaties geleverd in diverse toepassingen, voornamelijk dankzij hun geavanceerde mogelijkheden in redeneren, het benutten van externe kennis en tools, het aanroepen van API's en het uitvoeren van acties om te interageren met omgevingen. Huidige agents maken doorgaans gebruik van een geheugenmodule of een retrieval-augmented generation (RAG)-mechanisme, waarbij ze eerdere kennis en instanties met vergelijkbare embeddings uit kennisbanken ophalen om taakplanning en -uitvoering te informeren. De afhankelijkheid van niet-geverifieerde kennisbanken roept echter aanzienlijke zorgen op over hun veiligheid en betrouwbaarheid. Om dergelijke kwetsbaarheden bloot te leggen, stellen we een nieuwe red teaming-benadering voor, genaamd AgentPoison, de eerste backdoor-aanval die gericht is op generieke en RAG-gebaseerde LLM-agents door hun langetermijngeheugen of RAG-kennisbank te vergiftigen. In het bijzonder formuleren we het trigger-generatieproces als een geoptimaliseerde beperkte optimalisatie om backdoor-triggers te optimaliseren door de getriggerde instanties te mappen naar een unieke embeddingruimte, zodat ervoor wordt gezorgd dat wanneer een gebruikersinstructie de geoptimaliseerde backdoor-trigger bevat, de kwaadaardige demonstraties met hoge waarschijnlijkheid worden opgehaald uit het vergiftigde geheugen of de kennisbank. Tegelijkertijd zullen goedaardige instructies zonder de trigger nog steeds normale prestaties behouden. In tegenstelling tot conventionele backdoor-aanvallen vereist AgentPoison geen aanvullende modeltraining of fine-tuning, en vertoont de geoptimaliseerde backdoor-trigger superieure overdraagbaarheid, in-context coherentie en onopvallendheid. Uitgebreide experimenten tonen de effectiviteit van AgentPoison aan bij het aanvallen van drie soorten real-world LLM-agents: een RAG-gebaseerde autonome rijdende agent, een kennisintensieve QA-agent en een gezondheidszorg-EHRAgent. Op elke agent behaalt AgentPoison een gemiddeld aanvalssuccespercentage van meer dan 80% met een minimaal effect op de goedaardige prestaties (minder dan 1%) bij een vergiftigingspercentage van minder dan 0,1%.

English

LLM agents have demonstrated remarkable performance across various applications, primarily due to their advanced capabilities in reasoning, utilizing external knowledge and tools, calling APIs, and executing actions to interact with environments. Current agents typically utilize a memory module or a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and instances with similar embeddings from knowledge bases to inform task planning and execution. However, the reliance on unverified knowledge bases raises significant concerns about their safety and trustworthiness. To uncover such vulnerabilities, we propose a novel red teaming approach AgentPoison, the first backdoor attack targeting generic and RAG-based LLM agents by poisoning their long-term memory or RAG knowledge base. In particular, we form the trigger generation process as a constrained optimization to optimize backdoor triggers by mapping the triggered instances to a unique embedding space, so as to ensure that whenever a user instruction contains the optimized backdoor trigger, the malicious demonstrations are retrieved from the poisoned memory or knowledge base with high probability. In the meantime, benign instructions without the trigger will still maintain normal performance. Unlike conventional backdoor attacks, AgentPoison requires no additional model training or fine-tuning, and the optimized backdoor trigger exhibits superior transferability, in-context coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's effectiveness in attacking three types of real-world LLM agents: RAG-based autonomous driving agent, knowledge-intensive QA agent, and healthcare EHRAgent. On each agent, AgentPoison achieves an average attack success rate higher than 80% with minimal impact on benign performance (less than 1%) with a poison rate less than 0.1%.

AgentPoison: Red-teaming van LLM-agents door vergiftiging van geheugen of kennisbanken

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

Samenvatting

Support