Jailbreaking de Faible à Fort sur les Modèles de Langage à Grande Échelle
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Auteurs: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Résumé
Bien que des efforts significatifs aient été consacrés à l'alignement des grands modèles de langage (LLMs), les rapports de red-teaming suggèrent que ces LLMs soigneusement alignés pourraient encore être contournés via des prompts adversariaux, du réglage ou du décodage. En examinant la vulnérabilité au contournement des LLMs alignés, nous observons que les distributions de décodage des modèles contournés et alignés ne diffèrent que dans les premières générations. Cette observation nous motive à proposer l'attaque de contournement faible-vers-fort, où les adversaires peuvent utiliser des LLMs plus petits non sécurisés/alignés (par exemple, 7B) pour guider le contournement contre des LLMs alignés nettement plus grands (par exemple, 70B). Pour contourner, il suffit de décoder deux LLMs plus petits une seule fois, ce qui implique un calcul et une latence minimaux par rapport au décodage des LLMs plus grands. L'efficacité de cette attaque est démontrée par des expériences menées sur cinq modèles de trois organisations différentes. Notre étude révèle une méthode de contournement jusqu'alors inaperçue mais efficace, exposant un problème de sécurité urgent qui doit être pris en compte lors de l'alignement des LLMs. En tant que première tentative, nous proposons une stratégie de défense pour protéger contre de telles attaques, mais la création de défenses plus avancées reste un défi. Le code pour reproduire la méthode est disponible à l'adresse https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong