Virus: Schädlicher Feinabstimmungsangriff für große Sprachmodelle, um die Schutzschrankenmoderation zu umgehen
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Autoren: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Zusammenfassung
Neueste Forschungen zeigen, dass große Sprachmodelle (Large Language Models, LLMs) anfällig für schädliche Feinabstimmungsangriffe sind - Modelle verlieren ihre Sicherheitsausrichtungsfähigkeit nach der Feinabstimmung anhand einiger schädlicher Beispiele. Zur Risikominderung wird typischerweise eine Sicherheitsvorrichtung verwendet, um schädliche Beispiele vor der Feinabstimmung herauszufiltern. Durch die Entwicklung einer neuen Red-Teaming-Methode zeigen wir in diesem Papier, dass es nicht zuverlässig ist, sich ausschließlich auf die Sicherheitsvorrichtung zur Datenauswahl zu verlassen. Unsere vorgeschlagene Angriffsmethode, genannt Virus, umgeht die Sicherheitsvorrichtung mühelos, indem sie die schädlichen Daten geringfügig modifiziert. Experimentelle Ergebnisse zeigen, dass die durch Virus optimierten schädlichen Daten mit einer Undichtigkeitsrate von bis zu 100\% für die Sicherheitsvorrichtung nicht erkennbar sind und gleichzeitig eine überlegene Angriffsleistung erzielen können. Abschließend ist die zentrale Botschaft, die wir in diesem Papier vermitteln möchten, dass es fahrlässig ist, die Sicherheitsvorrichtung als letzten Ausweg gegen schädliche Feinabstimmungsangriffe zu betrachten, da sie das inhärente Sicherheitsproblem der vorab trainierten LLMs nicht lösen kann. Unser Code ist verfügbar unter https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary