AgentPoison: Red-Teaming von LLM-Agenten durch Vergiftung des Speichers oder des Wissensfundaments
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
July 17, 2024
Autoren: Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
cs.AI
Zusammenfassung
LLM-Agenten haben eine bemerkenswerte Leistung in verschiedenen Anwendungen gezeigt, hauptsächlich aufgrund ihrer fortgeschrittenen Fähigkeiten im logischen Schlussfolgern, der Nutzung externen Wissens und Tools, dem Aufrufen von APIs und der Ausführung von Aktionen zur Interaktion mit Umgebungen. Aktuelle Agenten nutzen in der Regel ein Speichermodul oder einen Abruf-erweiterten Generierungsmechanismus (RAG), um vergangenes Wissen und Instanzen mit ähnlichen Einbettungen aus Wissensbasen abzurufen, um die Aufgabenplanung und -ausführung zu unterstützen. Die Abhängigkeit von nicht überprüften Wissensbasen wirft jedoch erhebliche Bedenken hinsichtlich ihrer Sicherheit und Vertrauenswürdigkeit auf. Um solche Schwachstellen aufzudecken, schlagen wir einen neuartigen Red-Teaming-Ansatz namens AgentPoison vor, den ersten Backdoor-Angriff, der generische LLM-Agenten und RAG-basierte Agenten ins Visier nimmt, indem ihre Langzeitgedächtnis oder RAG-Wissensbasis vergiftet wird. Insbesondere gestalten wir den Triggergenerierungsprozess als eine eingeschränkte Optimierung zur Optimierung von Backdoor-Triggern, indem wir die ausgelösten Instanzen in einen einzigartigen Einbettungsraum abbilden, um sicherzustellen, dass immer wenn eine Benutzeranweisung den optimierten Backdoor-Trigger enthält, die bösartigen Demonstrationen mit hoher Wahrscheinlichkeit aus dem vergifteten Gedächtnis oder der Wissensbasis abgerufen werden. Gleichzeitig werden gutartige Anweisungen ohne den Trigger weiterhin eine normale Leistung beibehalten. Im Gegensatz zu herkömmlichen Backdoor-Angriffen erfordert AgentPoison kein zusätzliches Modelltraining oder Feinabstimmung, und der optimierte Backdoor-Trigger weist eine überlegene Übertragbarkeit, Kontextkohärenz und Heimlichkeit auf. Umfangreiche Experimente zeigen die Wirksamkeit von AgentPoison bei Angriffen auf drei Arten von LLM-Agenten in der realen Welt: RAG-basierte autonome Fahrzeugagenten, wissensintensive QA-Agenten und den Healthcare-EHRAgenten. Bei jedem Agenten erreicht AgentPoison eine durchschnittliche Angriffserfolgsrate von über 80% bei minimalem Einfluss auf die gutartige Leistung (weniger als 1%) bei einer Vergiftungsrate von weniger als 0,1%.
English
LLM agents have demonstrated remarkable performance across various
applications, primarily due to their advanced capabilities in reasoning,
utilizing external knowledge and tools, calling APIs, and executing actions to
interact with environments. Current agents typically utilize a memory module or
a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and
instances with similar embeddings from knowledge bases to inform task planning
and execution. However, the reliance on unverified knowledge bases raises
significant concerns about their safety and trustworthiness. To uncover such
vulnerabilities, we propose a novel red teaming approach AgentPoison, the first
backdoor attack targeting generic and RAG-based LLM agents by poisoning their
long-term memory or RAG knowledge base. In particular, we form the trigger
generation process as a constrained optimization to optimize backdoor triggers
by mapping the triggered instances to a unique embedding space, so as to ensure
that whenever a user instruction contains the optimized backdoor trigger, the
malicious demonstrations are retrieved from the poisoned memory or knowledge
base with high probability. In the meantime, benign instructions without the
trigger will still maintain normal performance. Unlike conventional backdoor
attacks, AgentPoison requires no additional model training or fine-tuning, and
the optimized backdoor trigger exhibits superior transferability, in-context
coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's
effectiveness in attacking three types of real-world LLM agents: RAG-based
autonomous driving agent, knowledge-intensive QA agent, and healthcare
EHRAgent. On each agent, AgentPoison achieves an average attack success rate
higher than 80% with minimal impact on benign performance (less than 1%) with a
poison rate less than 0.1%.Summary
AI-Generated Summary