AdvPrompter: Быстрая Адаптивная Адверсарная Подсказка для LLMsAdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
Недавно крупные языковые модели (Large Language Models, LLMs) достигли значительных успехов, однако они уязвимы к определенным атакам на обход защиты, которые приводят к созданию неприемлемого или вредоносного контента. Ручное тестирование на проникновение требует обнаружения атакующих подсказок, вызывающих такие атаки на обход защиты, например, путем добавления суффикса к данной инструкции, что является неэффективным и затратным по времени. С другой стороны, автоматическое создание атакующих подсказок часто приводит к семантически бессмысленным атакам, которые легко обнаруживаются фильтрами на основе перплексии, могут потребовать информацию о градиенте от целевой LLM или плохо масштабируются из-за затратных по времени дискретных оптимизационных процессов в пространстве токенов. В данной статье мы представляем новый метод, который использует другую LLM, называемую AdvPrompter, для генерации читаемых человеком атакующих подсказок за секунды, что в 800 раз быстрее, чем существующие подходы на основе оптимизации. Мы обучаем AdvPrompter с использованием нового алгоритма, который не требует доступа к градиентам TargetLLM. Этот процесс чередует два шага: (1) генерация высококачественных целевых атакующих суффиксов путем оптимизации прогнозов AdvPrompter и (2) низкоранговая донастройка AdvPrompter сгенерированными атакующими суффиксами. Обученный AdvPrompter генерирует суффиксы, скрывающие входную инструкцию, не изменяя ее смысла, таким образом, TargetLLM соблазняется дать вредоносный ответ. Экспериментальные результаты на популярных открытых TargetLLMs показывают передовые результаты на наборе данных AdvBench, которые также переносятся на закрытые черные ящики API LLM. Кроме того, мы демонстрируем, что путем донастройки на синтетическом наборе данных, сгенерированном AdvPrompter, LLM могут быть сделаны более устойчивыми к атакам на обход защиты, сохраняя при этом производительность, т.е. высокие показатели MMLU.