Gli LLM hanno correttezza politica? Analisi dei bias etici e delle vulnerabilità di jailbreak nei sistemi di intelligenza artificiale.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Autori: Isack Lee, Haebin Seong
cs.AI
Abstract
Sebbene i grandi modelli linguistici (LLM) dimostrino un'eccezionale competenza in varie attività, presentano potenziali rischi per la sicurezza, come i 'jailbreak', in cui input maliziosi possono costringere i LLM a generare contenuti dannosi. Per affrontare tali problematiche, molti sviluppatori di LLM hanno implementato varie misure di sicurezza per allineare tali modelli. Questo allineamento coinvolge diverse tecniche, tra cui il filtraggio dei dati durante la preformazione, il raffinamento supervisionato, il apprendimento per rinforzo dal feedback umano e esercitazioni di red-teaming. Questi metodi spesso introducono pregiudizi deliberati e intenzionali simili alla Correttezza Politica (PC) per garantire il comportamento etico dei LLM. In questo articolo, approfondiamo i pregiudizi intenzionali iniettati nei LLM a fini di sicurezza ed esaminiamo metodi per aggirare queste tecniche di allineamento della sicurezza. In particolare, tali pregiudizi intenzionali portano a un tasso di successo del jailbreaking nei modelli GPT-4o che differisce del 20% tra parole non binarie e cisgender e del 16% tra parole bianche e nere, anche quando le altre parti delle istruzioni sono identiche. Introduciamo il concetto di PCJailbreak, evidenziando i rischi intrinseci posti da questi pregiudizi indotti dalla sicurezza. Inoltre, proponiamo un efficiente metodo di difesa, PCDefense, che impedisce tentativi di jailbreak iniettando prompt di difesa prima della generazione. PCDefense si presenta come un'alternativa interessante ai Modelli di Guardia, come Llama-Guard, che richiedono costi aggiuntivi di inferenza dopo la generazione del testo. Le nostre conclusioni sottolineano l'urgente necessità per gli sviluppatori di LLM di adottare un approccio più responsabile nella progettazione e implementazione delle misure di sicurezza.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary