Vírus: Ataque de Ajuste Fino Danoso para Modelos de Linguagem Grandes Bypassando a Moderação de Barreiras de Proteção.
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Autores: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Resumo
Pesquisas recentes mostram que Modelos de Linguagem Grandes (LLMs) são vulneráveis a ataques prejudiciais de ajuste fino - os modelos perdem sua capacidade de alinhamento de segurança após o ajuste fino em algumas amostras prejudiciais. Para mitigação de riscos, um guarda-corpo é tipicamente usado para filtrar amostras prejudiciais antes do ajuste fino. Ao projetar um novo método de red teaming, neste artigo mostramos que confiar puramente no guarda-corpo de moderação para filtragem de dados não é confiável. Nosso método de ataque proposto, chamado de Vírus, contorna facilmente a moderação do guarda-corpo ao modificar ligeiramente os dados prejudiciais. Resultados experimentais mostram que os dados prejudiciais otimizados pelo Vírus não são detectáveis pelo guarda-corpo com uma taxa de vazamento de até 100%, e podem simultaneamente alcançar um desempenho de ataque superior. Por fim, a mensagem-chave que queremos transmitir através deste artigo é que: é imprudente considerar a moderação do guarda-corpo como uma solução milagrosa para ataques prejudiciais de ajuste fino, pois não pode resolver o problema de segurança inerente aos LLMs pré-treinados. Nosso código está disponível em https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary