Virus: Attacco dannoso di affinamento per modelli linguistici di grandi dimensioni che bypassa la moderazione delle barriere di protezione.
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Autori: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Abstract
Ricerche recenti mostrano che i Grandi Modelli Linguistici (GML) sono vulnerabili agli attacchi dannosi di fine-tuning: i modelli perdono la loro capacità di allineamento alla sicurezza dopo il fine-tuning su alcuni campioni dannosi. Per la mitigazione del rischio, di solito viene utilizzato un guardrail per filtrare i campioni dannosi prima del fine-tuning. Progettando un nuovo metodo di red-teaming, in questo articolo mostriamo che affidarsi esclusivamente al guardrail di moderazione per la filtrazione dei dati non è affidabile. Il nostro metodo di attacco proposto, chiamato Virus, supera facilmente la moderazione del guardrail modificando leggermente i dati dannosi. I risultati sperimentali mostrano che i dati dannosi ottimizzati da Virus non sono rilevabili dal guardrail con un tasso di perdita fino al 100%, e possono contemporaneamente ottenere prestazioni di attacco superiori. Infine, il messaggio chiave che vogliamo trasmettere attraverso questo articolo è che è imprudente considerare la moderazione del guardrail come un'ancora di salvezza contro gli attacchi dannosi di fine-tuning, poiché non può risolvere il problema di sicurezza intrinseco dei GML pre-addestrati. Il nostro codice è disponibile su https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary