Вирус: Вредоносная настройка атаки на большие языковые модели, обходящая умеренность ограждения.
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Авторы: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Аннотация
Недавние исследования показывают, что большие языковые модели (LLM) уязвимы к вредоносным атакам на тонкую настройку - модели теряют свою способность к безопасной настройке после настройки на нескольких вредоносных образцах. Для смягчения рисков обычно используется защитный барьер, чтобы отфильтровать вредоносные образцы перед тонкой настройкой. Разработав новый метод красной команды, мы в этой статье показываем, что полное доверие только к защитному барьеру для фильтрации данных не является надежным. Наш предложенный метод атаки, названный Вирус, легко обходит защитный барьер путем незначительного изменения вредоносных данных. Экспериментальные результаты показывают, что вредоносные данные, оптимизированные Вирусом, не обнаруживаются защитным барьером с утечкой до 100\% и одновременно достигают превосходной атакующей производительности. Наконец, ключевое сообщение, которое мы хотим донести через эту статью, заключается в том, что: бессмысленно считать защитный барьер единственным способом защиты от вредоносной тонкой настройки, поскольку он не решает врожденной проблемы безопасности предварительно обученных LLM. Наш код доступен по адресу https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary