Les LLM ont-ils la politiquement correctitude ? Analyse des biais éthiques et des vulnérabilités de jailbreak dans les systèmes d'IA.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Auteurs: Isack Lee, Haebin Seong
cs.AI
Résumé
Bien que les grands modèles de langage (GML) démontrent une impressionnante compétence dans diverses tâches, ils présentent des risques potentiels en termes de sécurité, tels que les "jailbreaks", où des entrées malveillantes peuvent contraindre les GML à générer du contenu nuisible. Pour répondre à ces problèmes, de nombreux développeurs de GML ont mis en place diverses mesures de sécurité pour aligner ces modèles. Cet alignement implique plusieurs techniques, notamment le filtrage des données lors de la pré-formation, le fine-tuning supervisé, l'apprentissage par renforcement à partir des retours humains, et des exercices de red-teaming. Ces méthodes introduisent souvent des biais délibérés et intentionnels similaires à la Politique de Correction (PC) pour garantir le comportement éthique des GML. Dans cet article, nous examinons les biais intentionnels injectés dans les GML à des fins de sécurité et étudions les méthodes pour contourner ces techniques d'alignement de sécurité. Notamment, ces biais intentionnels entraînent un taux de réussite de jailbreak de 20% dans les modèles GPT-4o qui diffère entre les mots-clés non-binaires et cisgenres et de 16% entre les mots-clés blancs et noirs, même lorsque les autres parties des stimuli sont identiques. Nous introduisons le concept de PCJailbreak, mettant en lumière les risques inhérents posés par ces biais induits par la sécurité. De plus, nous proposons une méthode de défense efficace, PCDefense, qui prévient les tentatives de jailbreak en injectant des stimuli de défense avant la génération. PCDefense se présente comme une alternative attrayante aux modèles de garde, tels que Llama-Guard, qui nécessitent un coût d'inférence supplémentaire après la génération de texte. Nos résultats soulignent le besoin urgent pour les développeurs de GML d'adopter une approche plus responsable lors de la conception et de la mise en œuvre des mesures de sécurité.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary