AgentPoison : Test de résistance des agents LLM par empoisonnement de la mémoire ou des bases de connaissances
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
July 17, 2024
Auteurs: Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
cs.AI
Résumé
Les agents LLM ont démontré des performances remarquables dans diverses applications, principalement grâce à leurs capacités avancées en raisonnement, à l'utilisation de connaissances externes et d'outils, à l'appel d'API et à l'exécution d'actions pour interagir avec des environnements. Les agents actuels utilisent généralement un module de mémoire ou un mécanisme de génération augmentée par récupération (RAG), récupérant des connaissances passées et des instances avec des embeddings similaires à partir de bases de connaissances pour éclairer la planification et l'exécution des tâches. Cependant, la dépendance à des bases de connaissances non vérifiées soulève des préoccupations importantes concernant leur sécurité et leur fiabilité. Pour révéler de telles vulnérabilités, nous proposons une nouvelle approche de red teaming, AgentPoison, la première attaque par porte dérobée ciblant les agents LLM génériques et basés sur RAG en empoisonnant leur mémoire à long terme ou leur base de connaissances RAG. En particulier, nous formulons le processus de génération de déclencheurs comme une optimisation contrainte pour optimiser les déclencheurs de porte dérobée en mappant les instances déclenchées à un espace d'embedding unique, afin de garantir que chaque fois qu'une instruction utilisateur contient le déclencheur de porte dérobée optimisé, les démonstrations malveillantes sont récupérées à partir de la mémoire ou de la base de connaissances empoisonnée avec une probabilité élevée. Parallèlement, les instructions bénignes sans le déclencheur maintiendront des performances normales. Contrairement aux attaques par porte dérobée conventionnelles, AgentPoison ne nécessite aucun entraînement ou ajustement supplémentaire du modèle, et le déclencheur de porte dérobée optimisé présente une transférabilité, une cohérence contextuelle et une furtivité supérieures. Des expériences approfondies démontrent l'efficacité d'AgentPoison pour attaquer trois types d'agents LLM du monde réel : un agent de conduite autonome basé sur RAG, un agent de questions-réponses intensif en connaissances et un agent de santé EHRAgent. Sur chaque agent, AgentPoison atteint un taux de réussite d'attaque moyen supérieur à 80 % avec un impact minimal sur les performances bénignes (moins de 1 %) et un taux d'empoisonnement inférieur à 0,1 %.
English
LLM agents have demonstrated remarkable performance across various
applications, primarily due to their advanced capabilities in reasoning,
utilizing external knowledge and tools, calling APIs, and executing actions to
interact with environments. Current agents typically utilize a memory module or
a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and
instances with similar embeddings from knowledge bases to inform task planning
and execution. However, the reliance on unverified knowledge bases raises
significant concerns about their safety and trustworthiness. To uncover such
vulnerabilities, we propose a novel red teaming approach AgentPoison, the first
backdoor attack targeting generic and RAG-based LLM agents by poisoning their
long-term memory or RAG knowledge base. In particular, we form the trigger
generation process as a constrained optimization to optimize backdoor triggers
by mapping the triggered instances to a unique embedding space, so as to ensure
that whenever a user instruction contains the optimized backdoor trigger, the
malicious demonstrations are retrieved from the poisoned memory or knowledge
base with high probability. In the meantime, benign instructions without the
trigger will still maintain normal performance. Unlike conventional backdoor
attacks, AgentPoison requires no additional model training or fine-tuning, and
the optimized backdoor trigger exhibits superior transferability, in-context
coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's
effectiveness in attacking three types of real-world LLM agents: RAG-based
autonomous driving agent, knowledge-intensive QA agent, and healthcare
EHRAgent. On each agent, AgentPoison achieves an average attack success rate
higher than 80% with minimal impact on benign performance (less than 1%) with a
poison rate less than 0.1%.Summary
AI-Generated Summary