Jailbreaking de Faible à Fort sur les Modèles de Langage à Grande Échelle

papers.abstract

Bien que des efforts significatifs aient été consacrés à l'alignement des grands modèles de langage (LLMs), les rapports de red-teaming suggèrent que ces LLMs soigneusement alignés pourraient encore être contournés via des prompts adversariaux, du réglage ou du décodage. En examinant la vulnérabilité au contournement des LLMs alignés, nous observons que les distributions de décodage des modèles contournés et alignés ne diffèrent que dans les premières générations. Cette observation nous motive à proposer l'attaque de contournement faible-vers-fort, où les adversaires peuvent utiliser des LLMs plus petits non sécurisés/alignés (par exemple, 7B) pour guider le contournement contre des LLMs alignés nettement plus grands (par exemple, 70B). Pour contourner, il suffit de décoder deux LLMs plus petits une seule fois, ce qui implique un calcul et une latence minimaux par rapport au décodage des LLMs plus grands. L'efficacité de cette attaque est démontrée par des expériences menées sur cinq modèles de trois organisations différentes. Notre étude révèle une méthode de contournement jusqu'alors inaperçue mais efficace, exposant un problème de sécurité urgent qui doit être pris en compte lors de l'alignement des LLMs. En tant que première tentative, nous proposons une stratégie de défense pour protéger contre de telles attaques, mais la création de défenses plus avancées reste un défi. Le code pour reproduire la méthode est disponible à l'adresse https://github.com/XuandongZhao/weak-to-strong.

English

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

Jailbreaking de Faible à Fort sur les Modèles de Langage à Grande Échelle

Weak-to-Strong Jailbreaking on Large Language Models

papers.abstract

Support