Virus: Ataque de Ajuste Fino Dañino para Modelos de Lenguaje Grandes que Bypass Moderación de Barreras de Protección
Virus: Harmful Fine-tuning Attack for Large Language Models Bypassing Guardrail Moderation
January 29, 2025
Autores: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
cs.AI
Resumen
Investigaciones recientes muestran que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) son vulnerables a ataques perjudiciales de ajuste fino: los modelos pierden su capacidad de alineación de seguridad después de ajustarse finamente con algunas muestras perjudiciales. Para la mitigación del riesgo, se utiliza típicamente una barandilla de protección para filtrar las muestras perjudiciales antes del ajuste fino. Al diseñar un nuevo método de simulación de adversarios, en este documento mostramos que depender exclusivamente de la barandilla de moderación para la filtración de datos no es fiable. Nuestro método de ataque propuesto, denominado Virus, elude fácilmente la moderación de la barandilla al modificar ligeramente los datos perjudiciales. Los resultados experimentales muestran que los datos perjudiciales optimizados por Virus no son detectables por la barandilla con una tasa de fuga de hasta el 100\%, y pueden lograr simultáneamente un rendimiento de ataque superior. Finalmente, el mensaje clave que queremos transmitir a través de este documento es que es imprudente considerar la moderación de la barandilla como una solución a los ataques perjudiciales de ajuste fino, ya que no puede resolver el problema de seguridad inherente de los LLMs pre-entrenados. Nuestro código está disponible en https://github.com/git-disl/Virus
English
Recent research shows that Large Language Models (LLMs) are vulnerable to
harmful fine-tuning attacks -- models lose their safety alignment ability after
fine-tuning on a few harmful samples. For risk mitigation, a guardrail is
typically used to filter out harmful samples before fine-tuning. By designing a
new red-teaming method, we in this paper show that purely relying on the
moderation guardrail for data filtration is not reliable. Our proposed attack
method, dubbed Virus, easily bypasses the guardrail moderation by slightly
modifying the harmful data. Experimental results show that the harmful data
optimized by Virus is not detectable by the guardrail with up to 100\% leakage
ratio, and can simultaneously achieve superior attack performance. Finally, the
key message we want to convey through this paper is that: it is
reckless to consider guardrail moderation as a clutch at straws towards harmful
fine-tuning attack, as it cannot solve the inherent safety issue of the
pre-trained LLMs. Our code is available at https://github.com/git-disl/VirusSummary
AI-Generated Summary