AgentPoison : Test de résistance des agents LLM par empoisonnement de la mémoire ou des bases de connaissances

papers.abstract

Les agents LLM ont démontré des performances remarquables dans diverses applications, principalement grâce à leurs capacités avancées en raisonnement, à l'utilisation de connaissances externes et d'outils, à l'appel d'API et à l'exécution d'actions pour interagir avec des environnements. Les agents actuels utilisent généralement un module de mémoire ou un mécanisme de génération augmentée par récupération (RAG), récupérant des connaissances passées et des instances avec des embeddings similaires à partir de bases de connaissances pour éclairer la planification et l'exécution des tâches. Cependant, la dépendance à des bases de connaissances non vérifiées soulève des préoccupations importantes concernant leur sécurité et leur fiabilité. Pour révéler de telles vulnérabilités, nous proposons une nouvelle approche de red teaming, AgentPoison, la première attaque par porte dérobée ciblant les agents LLM génériques et basés sur RAG en empoisonnant leur mémoire à long terme ou leur base de connaissances RAG. En particulier, nous formulons le processus de génération de déclencheurs comme une optimisation contrainte pour optimiser les déclencheurs de porte dérobée en mappant les instances déclenchées à un espace d'embedding unique, afin de garantir que chaque fois qu'une instruction utilisateur contient le déclencheur de porte dérobée optimisé, les démonstrations malveillantes sont récupérées à partir de la mémoire ou de la base de connaissances empoisonnée avec une probabilité élevée. Parallèlement, les instructions bénignes sans le déclencheur maintiendront des performances normales. Contrairement aux attaques par porte dérobée conventionnelles, AgentPoison ne nécessite aucun entraînement ou ajustement supplémentaire du modèle, et le déclencheur de porte dérobée optimisé présente une transférabilité, une cohérence contextuelle et une furtivité supérieures. Des expériences approfondies démontrent l'efficacité d'AgentPoison pour attaquer trois types d'agents LLM du monde réel : un agent de conduite autonome basé sur RAG, un agent de questions-réponses intensif en connaissances et un agent de santé EHRAgent. Sur chaque agent, AgentPoison atteint un taux de réussite d'attaque moyen supérieur à 80 % avec un impact minimal sur les performances bénignes (moins de 1 %) et un taux d'empoisonnement inférieur à 0,1 %.

English

LLM agents have demonstrated remarkable performance across various applications, primarily due to their advanced capabilities in reasoning, utilizing external knowledge and tools, calling APIs, and executing actions to interact with environments. Current agents typically utilize a memory module or a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and instances with similar embeddings from knowledge bases to inform task planning and execution. However, the reliance on unverified knowledge bases raises significant concerns about their safety and trustworthiness. To uncover such vulnerabilities, we propose a novel red teaming approach AgentPoison, the first backdoor attack targeting generic and RAG-based LLM agents by poisoning their long-term memory or RAG knowledge base. In particular, we form the trigger generation process as a constrained optimization to optimize backdoor triggers by mapping the triggered instances to a unique embedding space, so as to ensure that whenever a user instruction contains the optimized backdoor trigger, the malicious demonstrations are retrieved from the poisoned memory or knowledge base with high probability. In the meantime, benign instructions without the trigger will still maintain normal performance. Unlike conventional backdoor attacks, AgentPoison requires no additional model training or fine-tuning, and the optimized backdoor trigger exhibits superior transferability, in-context coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's effectiveness in attacking three types of real-world LLM agents: RAG-based autonomous driving agent, knowledge-intensive QA agent, and healthcare EHRAgent. On each agent, AgentPoison achieves an average attack success rate higher than 80% with minimal impact on benign performance (less than 1%) with a poison rate less than 0.1%.

AgentPoison : Test de résistance des agents LLM par empoisonnement de la mémoire ou des bases de connaissances

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

papers.abstract

Support