Агент Poison: проверка на проникновение агентов LLM с помощью отравления памяти или баз знаний
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases
July 17, 2024
Авторы: Zhaorun Chen, Zhen Xiang, Chaowei Xiao, Dawn Song, Bo Li
cs.AI
Аннотация
Агенты LLM продемонстрировали выдающуюся производительность в различных приложениях, в основном благодаря их продвинутым возможностям в рассуждениях, использовании внешних знаний и инструментов, вызове API и выполнении действий для взаимодействия с окружающей средой. Текущие агенты обычно используют модуль памяти или механизм извлечения с увеличением поиска (RAG), извлекая прошлые знания и экземпляры с похожими вложениями из баз знаний для информирования планирования и выполнения задач. Однако зависимость от непроверенных баз знаний вызывает значительные опасения относительно их безопасности и надежности. Для выявления таких уязвимостей мы предлагаем новый подход к командной работе AgentPoison, первую атаку с тыловым доступом, нацеленную на общие и основанные на RAG агенты LLM путем отравления их долговременной памяти или базы знаний RAG. В частности, мы формируем процесс генерации триггера как ограниченную оптимизацию для оптимизации триггеров с тыловым доступом путем сопоставления вызванных экземпляров с уникальным пространством вложений, чтобы гарантировать, что при наличии оптимизированного триггера с тыловым доступом в инструкции пользователя злонамеренные демонстрации извлекаются из отравленной памяти или базы знаний с высокой вероятностью. Тем временем добросовестные инструкции без триггера по-прежнему будут поддерживать нормальную производительность. В отличие от обычных атак с тыловым доступом, AgentPoison не требует дополнительного обучения модели или настройки, и оптимизированный триггер с тыловым доступом обладает превосходной передачей, согласованностью в контексте и скрытностью. Обширные эксперименты демонстрируют эффективность AgentPoison в атаке на три типа агентов LLM в реальном мире: автономный агент на основе RAG, агент для ответов на вопросы с интенсивным использованием знаний и агент здравоохранения EHRAgent. На каждом агенте AgentPoison достигает средней успешной атаки более 80% с минимальным воздействием на добросовестную производительность (менее 1%) при уровне отравления менее 0,1%.
English
LLM agents have demonstrated remarkable performance across various
applications, primarily due to their advanced capabilities in reasoning,
utilizing external knowledge and tools, calling APIs, and executing actions to
interact with environments. Current agents typically utilize a memory module or
a retrieval-augmented generation (RAG) mechanism, retrieving past knowledge and
instances with similar embeddings from knowledge bases to inform task planning
and execution. However, the reliance on unverified knowledge bases raises
significant concerns about their safety and trustworthiness. To uncover such
vulnerabilities, we propose a novel red teaming approach AgentPoison, the first
backdoor attack targeting generic and RAG-based LLM agents by poisoning their
long-term memory or RAG knowledge base. In particular, we form the trigger
generation process as a constrained optimization to optimize backdoor triggers
by mapping the triggered instances to a unique embedding space, so as to ensure
that whenever a user instruction contains the optimized backdoor trigger, the
malicious demonstrations are retrieved from the poisoned memory or knowledge
base with high probability. In the meantime, benign instructions without the
trigger will still maintain normal performance. Unlike conventional backdoor
attacks, AgentPoison requires no additional model training or fine-tuning, and
the optimized backdoor trigger exhibits superior transferability, in-context
coherence, and stealthiness. Extensive experiments demonstrate AgentPoison's
effectiveness in attacking three types of real-world LLM agents: RAG-based
autonomous driving agent, knowledge-intensive QA agent, and healthcare
EHRAgent. On each agent, AgentPoison achieves an average attack success rate
higher than 80% with minimal impact on benign performance (less than 1%) with a
poison rate less than 0.1%.Summary
AI-Generated Summary