Jailbroken : Comment la formation à la sécurité des LLM échoue-t-elle ?
Jailbroken: How Does LLM Safety Training Fail?
July 5, 2023
Auteurs: Alexander Wei, Nika Haghtalab, Jacob Steinhardt
cs.AI
Résumé
Les grands modèles de langage entraînés pour la sécurité et l'innocuité restent vulnérables aux abus adversariaux, comme en témoigne la prévalence des attaques de "jailbreak" sur les premières versions de ChatGPT, qui provoquent des comportements indésirables. Allant au-delà de la simple reconnaissance du problème, nous étudions pourquoi ces attaques réussissent et comment elles peuvent être créées. Nous émettons l'hypothèse de deux modes de défaillance de l'entraînement à la sécurité : les objectifs concurrents et la généralisation inadaptée. Les objectifs concurrents surviennent lorsque les capacités d'un modèle et ses objectifs de sécurité entrent en conflit, tandis que la généralisation inadaptée se produit lorsque l'entraînement à la sécurité ne parvient pas à généraliser à un domaine pour lequel des capacités existent. Nous utilisons ces modes de défaillance pour guider la conception de jailbreaks, puis évaluons les modèles de pointe, y compris GPT-4 d'OpenAI et Claude v1.3 d'Anthropic, contre des attaques existantes et nouvellement conçues. Nous constatons que des vulnérabilités persistent malgré les efforts approfondis de red-teaming et d'entraînement à la sécurité derrière ces modèles. Notamment, de nouvelles attaques exploitant nos modes de défaillance réussissent sur chaque prompt d'une collection de requêtes non sécurisées provenant des ensembles d'évaluation de red-teaming des modèles et surpassent les jailbreaks ad hoc existants. Notre analyse souligne la nécessité d'une parité sécurité-capacité -- où les mécanismes de sécurité devraient être aussi sophistiqués que le modèle sous-jacent -- et conteste l'idée que le simple passage à l'échelle puisse résoudre ces modes de défaillance en matière de sécurité.
English
Large language models trained for safety and harmlessness remain susceptible
to adversarial misuse, as evidenced by the prevalence of "jailbreak" attacks on
early releases of ChatGPT that elicit undesired behavior. Going beyond
recognition of the issue, we investigate why such attacks succeed and how they
can be created. We hypothesize two failure modes of safety training: competing
objectives and mismatched generalization. Competing objectives arise when a
model's capabilities and safety goals conflict, while mismatched generalization
occurs when safety training fails to generalize to a domain for which
capabilities exist. We use these failure modes to guide jailbreak design and
then evaluate state-of-the-art models, including OpenAI's GPT-4 and Anthropic's
Claude v1.3, against both existing and newly designed attacks. We find that
vulnerabilities persist despite the extensive red-teaming and safety-training
efforts behind these models. Notably, new attacks utilizing our failure modes
succeed on every prompt in a collection of unsafe requests from the models'
red-teaming evaluation sets and outperform existing ad hoc jailbreaks. Our
analysis emphasizes the need for safety-capability parity -- that safety
mechanisms should be as sophisticated as the underlying model -- and argues
against the idea that scaling alone can resolve these safety failure modes.