Les LLM ont-ils la politiquement correctitude ? Analyse des biais éthiques et des vulnérabilités de jailbreak dans les systèmes d'IA.

papers.abstract

Bien que les grands modèles de langage (GML) démontrent une impressionnante compétence dans diverses tâches, ils présentent des risques potentiels en termes de sécurité, tels que les "jailbreaks", où des entrées malveillantes peuvent contraindre les GML à générer du contenu nuisible. Pour répondre à ces problèmes, de nombreux développeurs de GML ont mis en place diverses mesures de sécurité pour aligner ces modèles. Cet alignement implique plusieurs techniques, notamment le filtrage des données lors de la pré-formation, le fine-tuning supervisé, l'apprentissage par renforcement à partir des retours humains, et des exercices de red-teaming. Ces méthodes introduisent souvent des biais délibérés et intentionnels similaires à la Politique de Correction (PC) pour garantir le comportement éthique des GML. Dans cet article, nous examinons les biais intentionnels injectés dans les GML à des fins de sécurité et étudions les méthodes pour contourner ces techniques d'alignement de sécurité. Notamment, ces biais intentionnels entraînent un taux de réussite de jailbreak de 20% dans les modèles GPT-4o qui diffère entre les mots-clés non-binaires et cisgenres et de 16% entre les mots-clés blancs et noirs, même lorsque les autres parties des stimuli sont identiques. Nous introduisons le concept de PCJailbreak, mettant en lumière les risques inhérents posés par ces biais induits par la sécurité. De plus, nous proposons une méthode de défense efficace, PCDefense, qui prévient les tentatives de jailbreak en injectant des stimuli de défense avant la génération. PCDefense se présente comme une alternative attrayante aux modèles de garde, tels que Llama-Guard, qui nécessitent un coût d'inférence supplémentaire après la génération de texte. Nos résultats soulignent le besoin urgent pour les développeurs de GML d'adopter une approche plus responsable lors de la conception et de la mise en œuvre des mesures de sécurité.

English

Although large language models (LLMs) demonstrate impressive proficiency in various tasks, they present potential safety risks, such as `jailbreaks', where malicious inputs can coerce LLMs into generating harmful content. To address these issues, many LLM developers have implemented various safety measures to align these models. This alignment involves several techniques, including data filtering during pre-training, supervised fine-tuning, reinforcement learning from human feedback, and red-teaming exercises. These methods often introduce deliberate and intentional biases similar to Political Correctness (PC) to ensure the ethical behavior of LLMs. In this paper, we delve into the intentional biases injected into LLMs for safety purposes and examine methods to circumvent these safety alignment techniques. Notably, these intentional biases result in a jailbreaking success rate in GPT-4o models that differs by 20% between non-binary and cisgender keywords and by 16% between white and black keywords, even when the other parts of the prompts are identical. We introduce the concept of PCJailbreak, highlighting the inherent risks posed by these safety-induced biases. Additionally, we propose an efficient defense method PCDefense, which prevents jailbreak attempts by injecting defense prompts prior to generation. PCDefense stands as an appealing alternative to Guard Models, such as Llama-Guard, that require additional inference cost after text generation. Our findings emphasize the urgent need for LLM developers to adopt a more responsible approach when designing and implementing safety measures.

Les LLM ont-ils la politiquement correctitude ? Analyse des biais éthiques et des vulnérabilités de jailbreak dans les systèmes d'IA.

Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

papers.abstract

Support